EM D H * 深入 浅 出 ， 介 绍 CPU 设计 技巧 和 新 兴 RISC-V 指令 集 架构 。 
5 epubit com — » 内 容 全 面 ， 讲 解 开源 蜂鸟 E200 系列 处 理 器 代码 与 设计 精髓 。 
* HAR, MAE SoC 、 软 件 工具 链 和 FPGA 原型 平台 的 搭建 和 使 用 。 
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内 容 提 要 


本 书 是 一 本 介绍 通用 CPU 设计 的 入 门 书 ， 以 通俗 的 语言 系统 介绍 了 CPU 和 RISC-V 架构 ,力求 为 
读者 揭 开 CPU 设计 的 神秘 面纱 ， 打 开 计 算 机 体系 结构 的 大 门 。 

本 书 共 分 为 四 部 分 。 第 一 部 分 是 CPU 与 RISC-V 的 综述 ， 帮 助 初学 者 对 CPU 和 RISC-V 快速 地 建 
立 起 认识 。 第 二 部 分 讲解 如 何 使 用 Verilog 设计 CPU， 使 读者 掌握 处 理 器 核 的 设计 精 锋 。 第 三 部 分 主要 
介绍 蜂鸟 E203 配套 的 Soc 和 软件 平台 ， 使 读者 实现 蜂鸟 E203 RISC-V 处 理 器 在 FPGA 原型 平台 上 的 
运行 。 第 四 部 分 是 附录 ， 介 绍 了 RISC-V 指令 集 架 构 ， 辅 以 作者 加 入 的 背景 知识 解读 和 注解 ， 以 便于 读 


者 理解 。 


本 书 不 仅 适 合 CPU 或 芯片 设计 相关 从 业者 阅读 使 用 ,也 适合 作为 大 中 专 院 校 相关 师 生 学 习 RISC-V 


处 理 器 设计 (使 用 Verilog 语言 ) 和 CPU 设计 的 指导 用 书 。 
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28s. EERS SERI PCR [S], RARER O. EAA 
RISC-V Ab3üa87guiu. ARIZ CPU 基础 知识 、 指 令 集 架构 ， 软 件 工具 链 等 核心 技 
术 做 了 原理 阐述 ， 并 以 他 自己 开发 的 开源 RISC-V 处 理 器 (蜂鸟 E200) 为 例 , 深入浅出 地 介 
绍 了 该 处 理 器 微 架构 以 及 具体 硬件 实现 ， 包 括 流水 线 结构 、Memory 结构 、 总 线 协议 、 中 断 
异常 和 调试 器 等 。 作 者 用 通俗 易 懂 的 写作 方式 ， 结 合 切 实 的 例子 ， 充 分 剖析 了 CPU 设计 的 
全 过 程 。 本 书 是 作者 长 期 工作 实践 中 总 结 出 来 的 经 验 宝 典 ， 相 信 对 很 多 CPU 设计 爱好 者 以 
及 想 从 事 相 关 工 作 的 读者 会 有 非常 大 的 帮助 。 对 于 很 多 在 校 的 EECS 学 生来 说 ， 这 也 将 是 一 

本 不 可 多 得 的 指导 用 书 。 
一 一 Synopsys 公司 ARC 处 理 器 高 级 研发 经 理 SW 


这 本 书 以 简练 朴素 的 语言 描述 了 RISC-V 处 理 器 架构 的 完整 设计 实践 ， 其 中 既 有 对 处 
理 器 体系 结构 简练 而 不 失 全 面 的 总 结对 比 ， 又 有 RISC-V 处 理 器 及 软 硬 系 统 设计 的 诸多 细 
节 。“ 小 小 麻雀 ， 五 脏 俱全 ”， 书 中 内 容 反 映 着 作者 对 本 领域 的 深刻 理解 和 亲身 实验 ， 值 得 
学 习 借鉴 。 

初 识 本 书 作 者 是 在 处 理 器 设计 架构 的 研讨 会 中 , 他 勤勉 务实 的 作风 给 和 人 留 下 了 深刻 的 印 
象 ， 我 想 也 影 啊 看 本 书 的 行文 和 风格 ， 值 得 学 习 。 





国防 科技 大 学 教授 3éuhdk 


RISC-V 处 理 器 已 经 在 工业 界 大 放 异 彩 ， 预 计 不 久之 后 在 “微机 原理 ”和 “计算 机 体系 
结构 ”课程 中 讲解 RISC-V 将 像 在 “操作 系统 ”课程 中 讲解 Linux 一 样 成 为 主流 。 本 书 作 者 
领导 的 团队 开源 了 “ 蜂 乌 E203” 处 理 器 ， 并 提供 了 完整 的 开发 环境 ， 为 读者 搭建 了 从 RISC-V 
理论 学 习 过 渡 到 工程 实践 的 桥梁 。 本 书 不 仅 深 入 地 诠释 了 项 目 代 码 ， 而 且 凝 聚 了 作者 多 年 从 
事 CPU 设计 工作 的 经 验 与 感悟 。 对 于 电子 类 和 计算 机 类 专业 的 师 生 、CPU 技术 爱好 者 和 从 
业者 来 说 ， 本 书 极 具 参考 价值 ! 

一 一 天 津 大 学 电气 自动 化 与 信息 工程 学 院 副教授 BB 


本 书 介绍 的 蜂鸟 E203 RISC-V 处 理 器 核 ,“ 蜂 乌 虽 小 ， 五 脏 俱全 ” 本 书 不 仅 适 合作 为 大 


2 | 手把手 教 你 设计 CPU——RISC-V 处 理 器 篇 


中 专 院 校 师 生 学 习 RISC-V 处 理 器 设计 《使 用 Verilog 语言 ) 的 教学 或 自学 案例 ， 而 且 在 IoT 
领域 也 会 大 有 可 为 。 结 合 该 处 理 器 实例 与 作者 多 年 的 CPU 设计 经 验 与 心得 ， 本 书 用 通俗 易 
懂 的 语言 ， 为 读者 轻松 揭 开 了 CPU 设计 的 神秘 面纱 ， 非 常 适合 作为 大 中 专 院 校 师 生 学 习 
RISC-V 和 CPU 设计 的 教学 书籍 。 

一 一 华中 科技 大 学 微 电 子 工程 系 副教授 郑 朝霞 


本 书 非常 全 面 地 介绍 了 RISC-V 开发 所 需 的 知识 点 ， 内 容 丰 富 ， 实 用 性 非常 强 ， 并 且 详 
尽 地 介绍 了 RISC-V 的 架构 设计 和 性 能 优化 方面 的 内 容 ， 必 将 成 为 RISC-V 开发 者 的 必 备 。 
我 打算 用 本 书 和 蜂鸟 E200 作为 学 生 的 课程 学 习 资 料 ， 相 信 大 家 会 有 所 收获 。 

一 一 西安 邮电 大 学 高 工 、 博 士 焦 继 业 


长 期 以 来 ， 由 于 商用 处 理 器 IP 核 高 昂 的 授权 费用 和 商业 保密 因素 的 影响 ， 商 用 处 理 器 
微 体系 结构 总 是 “ 秘 不 示人 ”。 这 导致 大 量 学 习 者 只 能 从 框图 和 体系 结构 仿真 软件 上 去 学 习 
“概念 化 ”的 处 理 器 微 体 系 结构 ， 与 实战 差距 较 大 。 而 本 书 作 者 研发 的 蜂鸟 E200 开源 处 理 器 
是 中 国 较 早 的 基于 RISC-V 指令 集 开 发 的 开源 处 理 器 。 在 本 书 中 ， 作 者 以 蜂鸟 E200 处 理 器 
为 例 , 介绍 了 从 处 理 器 微 体系 结构 到 片上 系统 设计 的 相关 知识 。 更 为 可 贵 的 是 , 作者 是 以 “和 集 
成 电路 设计 视角 ” 而 非 “ 计 算 机 系统 结构 视角 ”来 介绍 这 些 知 识 的 ， 这 样 的 知识 组 织 结构 
更 加 符合 集成 电路 设计 从 业 人 员 的 学 习习 惯 和 思考 方式 。 因 此 ， 这 本 书 对 于 从 事 数 字 集 成 电 
路 设计 的 工程 师 、 高 校 教师 以 及 相关 专业 的 学 生 是 一 本 难得 的 参考 书籍 。 
一 一 电子 科技 大 学 电子 科学 与 工程 学 院 副教授 黄 乐天 


有 和 幸 同 本 书 作者 共事 过 一 年 ， 每 每 被 他 的 知识 面 之 广博 所 折服 。 今 日 读 到 此 书 ， 更 加 佩 

HR! RISC-V 在 需要 低 功 耗 和 可 配置 性 的 场合 有 强大 的 生命 力 ， 在 IoT 领域 以 及 高 性 能 定制 

《例如 AI 加 速 ) 心 订 领域 即将 大 放 异 彩 ， 此 书 来 得 非常 及 时 ! 如 果 您 是 硬件 背景 的 工程 师 ， 

此 书 可 以 让 您 快速 上 手 RISC-V， 增 强 目 身 的 竞争 力 。 如 果 您 是 软件 背景 的 工程 师 ， 此 书 轻 松 

易 懂 ， 可 以 替代 Computer Systems: A Programmer's Perspective (《 深 入 理解 计算 机 系统 》) 一 书 ， 
让 您 了 解 计算 机 系统 的 底层 是 如 何 工 作 的 。 

一 一 北京 比特 大 陆 资深 芯片 和 CPU 设计 专家 EË 


2018 Æ, 在 meltdown 和 spectre 两 大 蕊 片 设计 的 漏洞 爆发 之 后 , 我 愈加 感觉 到 一 个 程序 
员 了 解 和 理解 处 理 器 的 设计 原理 和 工作 机 制 是 多 么 的 必要 。 这 是 一 本 能 让 你 学 习 到 上 述 知识 
的 好 书 ， 所 有 程序 员 都 应 该 读 一 读 。 


一 一 《奔跑 吧 Linux 内 核 》 作 者 EAA - 





序 — 


必 片 ， 是 整个 电子 信息 产业 的 基石 。 目 前 ， 全 球 半 导体 市 场 规模 达 3200 亿美 元 ， 全 球 
54% 的 世 片 都 出 口 到 了 中 国 ， 但 国产 必 片 的 市 场 份 额 只 占 10%。 中 国 蕊 片 产业 每 年 进口 需要 
消耗 2000 多 亿美 元 外 汇 ， 超 过 了 石油 和 大 宗 商 品 ， 在 进口 商品 中 占有 相当 大 的 比重 。 

CPU 作为 芯片 的 “心脏 ” 可谓“ 蕊 中 之 心 ”， 国内 的 产业 实力 在 此 方面 一 直 比 较 落 弱 。 
CPU 实现 国产 自主 化 对 我 国 的 发 展 至 关 重 要 ,但 是 CPU 的 主流 指令 集 架 构 ( 璧 如 x86 和 ARM) 
一 直 为 国外 公司 所 垄断 ， 国 内 公司 需要 支付 高 昂 的 专利 费用 且 受 制 于 人 。CPU 作为 一 种 特 
殊 的 必 片 ， 其 要 求 指令 集 架 构 具 有 普 世 的 通用 性 且 能 够 共享 生态 系统 ， 因 此 园 于 一 国 范围 内 
发 明 一 套 封闭 的 指令 集 并 不 具备 实用 性 ， 必 须 走 与 世界 主流 架构 接轨 的 道路 。 在 这 种 背景 下 ， 
开放 的 RISC-V 架构 给 中 国 CPU 芯片 产业 的 发 展 带 来 了 巨大 的 战略 机 遇 ， 有 和 希望 彻底 实现 
CPU 的 国产 自主 化 和 架构 主流 化 。 

目前 ， 我 国正 处 于 大 力 发 展 芯 片 设 计 行 业 的 关键 时 期 ， 实 现 中华 民 族 伟大 复兴 的 重任 需 
要 广大 科研 和 工程 工作 者 孜孜 不 倦 地 努力 与 拼搏 , 需要 很 多 像 作者 这 样 求 真 务实 的 技术 中 坚 
力量 来 担负 起 国产 芯片 振兴 的 重任 。 而 国内 CPU 领域 人 才 的 奇 缺 是 长 期 制约 行业 发 展 的 主 
要 因素 ， 本 书 作 者 作为 一 名 长 期 工作 在 一 线 的 资深 CPU 设计 专家 ， 将 其 经 验 撰写 成 书 ， 资 
料 翔 实 ， 文 字 生 动 。 配 合作 者 所 在 公司 开发 的 蜂鸟 E200 系列 处 理 器 核 作为 实例 ， 非 常 适合 
用 于 教学 领域 以 及 爱好 者 学 习 ， 对 于 普及 CPU 的 设计 技术 具有 十 分 积极 的 意义 。 

新 兴 的 RISC-V 架构 在 全 球 范围 内 已 经 掀起 了 一 场 热 潮 ， 在 国内 也 引起 了 广泛 的 关注 ， 
但 是 由 于 没有 很 好 的 中 文 普及 书籍 ， 很 多 人 对 于 RISC-V 仍然 是 “只 闻 其 声 ， 未 见 其 形 ”。 
作者 作为 国内 第 一 批 接触 RISC-V 架构 ， 并 最 早 研发 成 功 RISC-V 处 理 器 的 技术 专家 ， 在 工 
作 之 余 将 其 自 研 的 处 理 器 核 开源 ， 并 著 书 详细 解读 其 实现 细节 , 体现 了 作者 极 高 的 专业 水 准 
和 推进 国产 CPU 产业 发 展 的 炽热 情怀 。 

本 书 以 极为 通俗 易 懂 的 语言 对 RISC-V 架构 进行 了 系统 而 全 面 地 介绍 ， 并 且 结 合 蜂鸟 
E200 系列 开源 处 理 器 核对 CPU 设计 技术 进行 了 深入 浅 出 的 讲解 ， 图 文 并 成， 生动 活泼 ， 体 
现 了 作者 深厚 的 专业 技能 以 及 将 专业 知识 进行 通俗 化 表述 的 优秀 能 力 。 令 人 印象 深刻 的 是 ， 
本 书 作 者 在 对 RISC-V 架构 进行 介绍 的 过 程 中 ， 加 入 了 大 量 的 背景 知识 解读 以 及 个 人 注解 ， 
使 得 枯燥 的 专业 知识 变 得 非常 易于 理解 ， 可 以 说 是 难能可贵 。 这 是 一 本 凝聚 了 作者 多 年 所 学 
的 精心 之 作 ， 非 常 值 得 一 读 ， 对 于 RISC-V 架构 在 国内 的 传播 也 将 具有 巨大 的 推动 作用 。 本 
书 作 为 国内 不 可 多 得 的 介绍 RISC-V 的 中 文书 籍 ， 相 信 一 定 会 成 为 该 领域 的 经 典 之 作 。 


AEH 

华中 科技 大 学 武汉 国际 微 电 子 学 院 执行 院 长 、 教 授 
武汉 集成 电路 设计 工程 技术 研究 中 心 主任 
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近 40 年 来 ， 通 用 计算 的 两 次 路 时 代 的 飞跃 都 来 自 硬件 系统 的 逐步 开放 。 以 PC 为 终端 
的 有 线 互 联网 技术 完成 了 地 址 与 地 址 之 间 的 通信 ， 让 数据 真正 实现 了 大 量 传输 与 交互 。 而 这 
一 切 源 于 美国 Intel 公司 发 明 x86 芯片 ， 并 将 芯片 提供 给 各 大 计算 机 制造 厂商 按照 开放 硬件 
标准 组 装 ， 使 PC 大 批量 制造 成 为 可 能 。PC 的 普及 开创 了 计算 机 互联 网 的 时 代 ， 互 联网 时 
代 开 始 之 初 的 用 户 数量 是 54 (2003 年 )。 以 手机 为 终端 的 移动 互联 网 实现 了 人 与 人 之 间 的 
通信 ， 让 终端 个 人 直接 连接 到 网 络 。 这 一 切 都 是 因为 英国 ARM 公司 将 CPU 的 IP 授权 给 手 
机 芯片 厂商 以 SoC 片上 系统 的 形式 研制 自己 的 芯片 ， 使 智能 手机 得 以 大 量 普 及 ， 同 时 开创 
了 移动 互联 网 时 代 ， 移 动 互联 网 时 代 开 始 之 初 的 用 户 数量 是 25 亿 (2009 年 )。 

未 来 是 物 联网 的 时 代 ， 那 时 的 用 户 数 量 会 是 多 少 呢 ? 有 分 析 称 ，2020 年 将 会 达到 300 
亿 ，2050 年 极 保守 估算 将 是 1000 亿 以 上 。 美 国 公司 通过 完成 硬件 开放 标准 化 ， 研 发 芯片 并 
将 其 出 售 ， 完 成 了 5 亿 用 户 普及 ; 英国 公司 通过 完成 芯片 标准 化 ， 并 将 其 芯片 P 有 限 的 授 
权 ， 完 成 了 25 亿 用 户 的 推广 。 而 面 对 一 个 上 百 亿 用 户 推广 的 目标 ， 数 以 千 万 计 的 不 同 应 用 
需求 ， 必 须要 有 更 开放 的 形式 吸引 更 多 的 力量 参与 ， 而 这 个 答案 显而易见 就 是 一 一 开源 。 只 
有 开源 ， 才 能 降低 进入 门槛 ， 加 快 技术 友 代 速度 ， 实 现 技 术 普 及 ， 满 足 市 场 需求 。 开 源 、 共 
享 、 共 赢 ， 可 以 说 在 物 联 网 时 代 , 开源 的 硬件 是 一 种 必需 , 没有 基础 芯片 技术 的 进一步 开源 ， 
就 没有 物 联网 应 用 的 未 来 。 

而 且 , 在 摩尔 定律 减缓 的 今天 ， 一 味 比 拼 硬件 性 能 的 技术 竞赛 变 得 越发 艰难 。 然 而 性 能 
提升 的 最 终 目 的 是 满足 应 用 , 如 何在 现 有 的 能 力 下 最 大 程度 地 满足 数 以 千 万 计 的 不 同 应 用 的 
需求 ， 就 成 了 当今 处 理 器 行业 要 面 对 的 重要 问题 。RISC-V 站 在 了 时 代 的 风口 ， 其 作为 一 种 
开源 架构 的 出 现 必 将 对 芯片 产业 产生 深远 的 影响 。 硬 件 芯 片 的 开源 不 再 是 一 个 嗪 头 ， 而 是 变 
成 了 一 种 刚 需 。 蜂 鸟 E200 作为 中 国 本 土 较 早 开源 的 RISC-V 芯片 ， 也 将 对 国内 的 相关 产业 
发 展 起 到 巨大 的 推动 作用 ， 为 国内 公司 抓 住 物 联网 风口 的 大 发 展 而 助力 。 开 源 即 透 明 ， 透 明 
即 可 控 。 自主 可 控 也 是 国家 信息 安全 的 保障 , 由 国内 公司 自主 研发 并 开源 的 RISC-V 处 理 器 ， 
也 为 国家 信息 安全 领域 的 应 用 提供 了 多 一 种 选择 。 

这 本 书 基于 蜂鸟 E200, 全 面 而 详细 地 介绍 了 RISC-V 处 理 器 ， 分 四 大 部 分 讲解 了 处 理 器 
和 指令 集 架 构 的 基本 知识 与 背景 、 处 理 器 设计 要 诀 、 软 件 运行 实例 以 及 RISC-V 附录 资料 ， 
是 国内 RISC-V 开源 处 理 器 社区 极其 稀缺 的 教材 , 可 以 说 是 RISC-V 芯片 版 的 《 乌 哥 的 Linux 
私房 菜 》。 更 难能可贵 的 是 ， 书 中 作者 不 但 深入 浅 出 地 讲解 了 处 理 器 相关 的 几乎 全 部 的 基本 
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概念 和 功能 设计 要 点 ， 而 且 辅 以 大 量 实 例 与 解析 ， 是 初学 者 在 RISC-V 和 处 理 器 设计 领域 推 
门 入 室 的 不 二 之 选 。 

我 推荐 这 本 书 ， 并 不 仅仅 因为 它 是 一 本 好 的 技术 教材 ， 更 是 因为 它 可 以 为 更 多 人 开局 开 
源 硬件 、 芯 片 世 界 的 大 门 。 开 源 的 本 质 是 技术 合作 和 知识 的 自由 传播 。 知 识 只 有 传播 才 有 价 
值 , 而 开源 就 是 让 知识 能 在 广泛 群体 中 传播 , 并 凝聚 这 个 群体 的 力量 来 推动 相应 技术 的 发 展 。 
开源 精神 可 能 是 一 种 理想 主义 ,而 这 种 理想 主义 也 是 有 其 现实 意义 的 ， 尤其 是 在 著作 权 和 专 
利 构 成 技术 进步 壁垒 下 的 今天 , 创新 需要 这 样 的 理想 主义 来 推动 ， 而 理想 主义 的 世界 需要 优 
秀 的 作品 来 开启 。 

期 待 这 本 优秀 的 教材 能 为 读者 打开 理想 主义 世界 的 大 门 ! 


郑 云龙 
中 国 科学 院 博士 后 
九天 微星 技术 总 监 
2018 年 初 于 北京 
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永恒 的 热点 一 一 CPU 


KT, 等 灯 等 灯 eeveee 
——— Intel 
如 果 要 评选 过 去 十 数 年 间 经 典 的 科技 广告 音乐 ， 想 必 Intel 的 广告 音乐 “ 灯 ， 等 灯 等 
灯 ……” 会 榜 上 有 名 。 而 熟悉 的 蓝 色 贴 标 “Intel Inside”, 也 必 是 辨识 度 很 高 的 广告 图 标 。 
中 央 处 理 单元 (Center Processor Unit，CPU)， 虽 然 早 已 被 大 众 所 熟 知 ， 但 在 相当 长 的 时 间 
内 ， 它 一 直 是 高 端 大 气 的 代名词 。 也 许 很 多 读者 都 和 作者 有 着 相同 的 印象 ， 在 早期 的 电脑 杂志 
上 , 必然 有 着 浓墨重彩 的 篇 幅 与 专栏 , 详细 介绍 Intel 或 AMD 公司 推出 的 CPU 芯片 的 详细 参数 ， 
抑或 MIPS 与 ARM 的 优 劣 之 处 ， 甚 至 是 令 人 津津 乐 道 的 各 家 CPU 的 小 道 消 息 与 幕后 桥 段 。 
而 CPU 代表 的 高 端 技术 ， 也 一 直 笼 日 在 神秘 的 面纱 之 下 。 当 作者 还 是 一 名 学 生 的 时 候 ， 
每 当 浏 览 CPU 的 论坛 与 探讨 文章 ， 总 能 看 到 其 作为 热门 版 块 吸引 着 众多 的 拥护 者 ， 并 拥有 
极 高 的 下 载 量 。 当 我 结束 了 多 年 的 校园 生活 ， 开 始 选择 人 生 第 一 份 工 作 时 ， 正 着 某 知 名 外 企 
到 中 国 设立 CPU 研发 部 门 。 经 过 激烈 的 竞争 ， 我 有 垃 成 为 了 一 名 CPU 逻辑 设计 工程 师 。 而 
后 多 年 间 ， 我 先后 供职 于 多 家 国际 一 流 公司 的 CPU 设计 部 门 ， 参 与 过 多 次 校园 招聘 和 社会 
招聘 ，CPU 设计 部 门 总 能 以 其 光环 吸引 众多 的 应 聘 者 前 来 竞争 角逐 。 就 像 每 个 男孩 心中 都 
有 一 个 军人 梦 一 样 ， 似 乎 每 一 个 芯片 设计 人 员 都 有 一 个 CPU 梦 。 
当今 世界 ， 科 学 技术 正在 以 令 人 惊异 的 速度 飞快 发 展 ， 从 IoT 〈 物 联网 ) 到 大 数据 再 到 
人 工 智 能 ， 新 技术 与 新 领域 如 雨后春笋 般 层 出 不 穷 。 而 CPU 这 门 诞生 于 20 世纪 60—70 年 
代 的 技术 ， 是 否 已 经 垂 垂 老 侨 ， 应 该 退出 历史 舞台 了 呢 ? HEDA, JA IoT 的 超 低 功 耗 微 控 
制 器 到 大 数据 的 高 性 能 计算 ， 再 到 人 工 智 能 的 异 构 计 算 ，CPU 均 扮 演 着 核心 的 角色 。 可 以 
说 ， 在 未 来 相当 长 的 时 间 内 ， 从 指 尖 的 超 低 功 耗 处 理 器 到 云端 的 超级 计算 机 ，CPU 技术 都 
将 持续 站 在 前 沿 科 技 的 风口 浪 尖 ， 散 发 着 它 历久 弥 新 的 魅力 。 
然而 长 期 以 来 ，CPU 架构 主要 由 以 Intel (x86 架构 ) 和 ARM (ARM 架构 ) 为 代表 的 商业 
巨头 公司 所 掌控 ， 成 为 普通 公司 与 个 人 无 法 逾越 的 天 四。2016 年 ，RISC-V 基金 会 成 立 ， 开 放 
免费 的 RISC-V 架构 。 这 一 举动 具有 划时代 的 意义 , 任何 公司 与 个 人 均 可 依据 开放 的 RISC-V 架 
构 设 计 自己 所 需 的 处 理 器 ， 极 大 地 降低 了 CPU 的 准 入 门槛 。 因 此 ，RISC-V 架构 在 极 短 的 时 间 
内 便 引 起 了 业界 的 高 度 关 注 ， 从 众多 反应 快速 的 小 公司 到 实力 雄厚 的 巨头 公司 (如 NVIDIA、 
三 星 等 ) 均 开始 使 用 RISC-V 架构 开发 产品 。“ 旧 时 王 谢 堂前 燕 ， 飞 入 寻常 百姓 家 ”， 在 摩尔 定 
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律 逐步 逼近 极限 的 今天 ， 开 放 且 免费 的 RISC-V 架构 的 诞生 ， 将 催生 出 新 一 轮 的 创新 热潮 。 

当前 国内 CPU 产业 方兴未艾 ，x86、ARM 和 MIPS 等 传统 商用 处 理 器 架构 呈现 “百花 
齐 放 ”之 势 。 龙 蕊 、 兆 蕊 、 飞 腾 等 资深 专业 CPU 公司 在 不 断 突破 ， 华 为 、 展 讯 等 一 线 大 公 
司 相继 开始 研发 目 主 的 处 理 器 核心 ， 海 光 、 华 忌 通 等 新 锐 也 开始 摩拳擦掌 。 此 时 ， 开 放 的 
RISC-V 染 构 的 诞生 ,更 是 锦上添花 。 可 以 说 ,学习 CPU 设计 正当 时 ， 学 习 RISC-V 正当 时 ! 

作者 在 培训 新 入 门 工程 师 ， 或 与 爱好 者 、 学 生 交 流 的 过 程 中 ， 能 够 感到 CPU 设计 这 门 
要 求 计算 机 体系 结构 和 软 人 硬件 皆 通 的 技术 令 初 学 者 难以 学 习 和 掌握 , 作者 时 常 遗憾 于 没有 很 
好 的 通俗 读本 。 正 所 谓 “ 曲 高 和 赛 ， 妙 伎 难 工 ””CPU 设计 过 于 专业 ， 相 关 的 书籍 或 卷 帷 浩 
繁 ， 或 临 汐 难 懂 ， 令 初学 者 不 知 从 何 下 手 ， 且 难以 理解 。 在 实际 的 练习 中 ， 也 难以 找到 易于 
学 习 和 上 和 手 的 例 程 ， 更 别 说 完整 地 设计 一 款 处 理 器 了 。 

如 上 种 种 ， 正 是 促使 作者 撰写 此 书 的 原因 。 作 者 希望 本 书 能 够 作为 一 本 通俗 读本 ， 帮 助 
初学 者 和 爱好 者 顺利 越过 初期 的 陡峭 学 习 曲 线 ， 进 入 CPU 设计 的 坦途 。 谨 以 此 书 献 给 曾经 
帮助 过 作者 的 恨 师 益友 、 合 作 伙 伴 和 默默 工作 的 工程 师 们 ! 





本 书 内 容 


Stay hungry, Stay foolish. 
CRAMAI, ERGO RR SD 
— Steven Jobs. (ERR * FAHM 
您 是 否 想 学 习 工 业 级 Verilog RTL 数字 IC 设计 的 精髓 与 技巧 ? 
您 是 否 阅 读 了 众多 计算 机 体系 结构 的 书籍 仍 不 明 就 里 ? 
您 是 否 想 揭 开 CPU 设计 神秘 的 面纱 ， 并 亲自 设计 一 款 处 理 器 ? 
您 是 否 想 学 习 国 际 一 流 公司 真实 的 CPU 设计 案例 ? 
您 是 否 想 用 最 短 的 时 间 熟 悉 并 掌握 RISC-V 架构 ? 
。 您 是 否 想 深 入 理解 并 使 用 一 款 免 费 可 靠 的 开源 RISC-V 处 理 器 和 完整 的 SoC 平台 ? 
如 果 您 对 上 述 任意 一 个 问题 感 兴趣 ， 本 书 都 将 是 您 很 好 的 选择 。 
作者 所 在 公司 的 团队 ， 总 结 各 国际 一 流 公司 多 年 从 事 CPU 设计 工作 的 丰富 经 验 ， 开 发 
了 一 款 超 低 功 耗 RISC-V 处 理 器 〈 蜂 鸟 E200)， 也 是 一 款 开 源 的 RISC-V 处 理 器 。 
结合 该 处 理 器 实例 与 作者 多 年 的 CPU 设计 经 验 与 心得 ， 本 书 将 用 通俗 易 懂 的 语言 ， 深 
入 小 出 地 齐 析 RISC-V 处 理 器 的 微 架构 以 及 代码 实现 ， 为 读者 揭 开 CPU 设计 的 神秘 面纱 ， 
打开 计算 机 体系 结构 的 大 门 。 
本 书 旨 在 成 为 国内 第 一 本 系统 介绍 RISC-V 指令 集 架 构 的 通俗 读本 ， 以 及 第 一 本 结合 实 
际 RISC-V 开源 实例 进行 教学 的 技术 图 书 。 相 信和 通过 对 本 书 的 学 习 ， 读 者 能 够 快速 掌握 并 轻 
松 使 用 RISC-V 架构 处 理 器 。 
通过 学 习 实例 蜂鸟 E200 的 Verilog 代码 ， 您 将 能 成 为 一 名 合格 的 数字 IC 设计 工程 师 ; 通过 


学 习 本 书 推 荐 的 完整 开源 SoC 平台 , 您 也 可 以 快速 搭建 FPGA 原型 平台 , 运行 完整 的 软件 实例 。 

希望 本 书 能 够 为 科普 RISC-V 指令 集 架构 起 到 推动 作用 ， 同 时 通过 对 “蜂鸟 E200 处 理 
器 ”的 开源 与 解析 ， 为 RISC-V 处 理 嚣 在 国内 的 普及 贡献 绵薄 之 力 。 本 书 共 分 四 部 分 ， 各 部 
分 主要 内 容 如 下 。 

第 一 部 分 是 CPU 与 RISC-V 综述 , 包括 第 1 一 4 章 。 该 部 分 将 介绍 CPU 的 一 些 基 础 背景 
知识 、RISC-V 架构 的 诞生 和 特点 。 

第 1 章 主 要 介绍 CPU 的 基础 知识 、 指 令 集 架构 的 历史 、 国 产 CPU 的 发 展现 状 及 原因 、 
CPU 的 应 用 领域 、 各 领域 的 主流 架构 、RISC-V 的 诞生 背景 等 。 

第 2 章 主 要 介绍 RISC-V 架构 和 特点 , 着 重 分 析 其 大 道 至 简 的 设计 哲学 , 并 阐述 RISC-V 
和 以 往 曾 经 出 现 过 的 开放 架构 有 何不 同 。 

第 3 章 主 要 对 当前 全 球 范 围 内 的 商业 或 者 开源 RISC-V 处 理 器 进行 盘点 ,分 析 其 优 缺 点 ， 
并 引出 开源 的 RISC-V 处 理 器 一 一 蜂鸟 E200 系列 处 理 器 核 和 SoC. 

第 4 章 主要 对 蜂鸟 E200 系列 处 理 器 核 和 SoC 的 特性 进行 整体 介绍 。 

第 二 部 分 主要 讲解 如 何 使 用 Verilog 设计 CPU,， 包 括 第 5—16 章 。 该 部 分 将 对 蜂鸟 E200 
处 理 器 核 的 微 架 构 和 源 代码 进行 深度 剖析 ， 结 合 该 处 理 器 核 进行 处 理 器 设计 案例 分 析 。 

第 5 章 主 要 先 从 宏观 的 角度 着 手 ， 介 绍 若 干 处 理 器 设计 的 技巧 、 蜂 鸟 E200 处 理 器 核 的 
总 体 设 计 思 想 和 顶层 接口 。 帮 助 读者 整体 认识 蜂鸟 E200 处 理 器 的 设计 要 诀 ， 为 后 续 各 章 针 
对 不 同 部 分 展开 详 述 葛 定 基础 。 

第 6 章 主 要 介绍 处 理 需 的 一 些 常见 流水 线 结构 ， 并 介绍 蜂 乌 E200 处 理 器 核 的 流水 线 结构 。 

第 7 章 主 要 介绍 处 理 器 的 取 指 功能 ， 并 介绍 蜂鸟 E200 处 理 器 核 取 指 单元 的 微 架 构 和 源 
码 分 析 。 

第 8 章 主 要 介绍 处 理 器 的 执行 功能 ， 并 介绍 蜂鸟 E200 处 理 器 核 执 行 单元 的 微 架构 和 源 
码 分 析 。 

第 9 章 主 要 介绍 处 理 器 交付 的 功能 和 常见 策略 ， 并 介绍 蜂鸟 E200 处理 器 核 交 付 单 元 的 
微 架 构 和 源码 分 析 。 

第 10 章 主要 介绍 处 理 器 的 写 回 功能 和 常见 策略 , 并 介绍 蜂鸟 E200 处 理 器 核 的 写 回 硬件 
实现 微 架 构 和 源码 分 析 。 

第 11 章 主 要 介绍 处 理 器 的 存储 器 架构 , 并 介绍 蜂鸟 E200 处 理 器 核 存储 器 子 系统 的 微 架 
构 和 源码 分 析 。 

第 12 章 主 要 介绍 蜂鸟 E200 处 理 器 核 的 总 线 接口 模块 , 介绍 其 使 用 的 总 线 协议 , 以 及 该 
模块 的 微 架 构 和 源码 分 析 。 

第 13 章 主 要 介绍 RISC-V 架构 定义 的 中 断 和 异常 机 制 , 蜂鸟 E200 处 理 器 核 中 断 和 异常 
的 硬件 微 架构 及 其 源码 分 析 。 

第 14 章 主要 介绍 处 理 器 的 调试 机 制 ， 介 绍 RISC-V 架构 定义 的 调试 方案 、 蜂 鸟 E200 处 
理 器 调试 机 制 的 硬件 实现 微 架 构 和 源码 分 析 。 
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第 15 章 主要 介绍 处 理 器 的 低 功 耗 技 术 ， 并 以 蜂鸟 E200 处 理 器 为 例 阐述 其 低 功 耗 设计 
HRI o 

第 16 章 主 要 介绍 如 何 利 用 RISC-V 的 可 扩展 性 ， 并 以 蜂鸟 E200 的 协 处 理 器 接口 为 例 详 
细 痔 述 如 何 定 制 一 款 协 处 理 器 。 

第 三 部 分 是 使 用 Verilog 进行 仿真 和 在 FPGA SoC 原型 上 运行 软件 ， 包 括 第 17 一 20 €. 
该 部 分 将 对 蜂鸟 E200 配套 SoC 的 软 硬 件 平台 进行 剖析 ， 并 详细 讲解 如 何 进 行 Verilog 仿真 
测试 ， 如 何在 FPGA 原型 上 运行 软件 示例 程序 和 使 用 GDB 进行 调试 。 想 快速 使 用 蜂鸟 E200 
的 读者 可 以 跳 过 第 二 部 分 ， 直 接 阅读 第 三 部 分 内 容 。 

第 17 章 主 要 介绍 蜂鸟 E200 开源 平台 如 何 运行 Verilog 仿真 测试 。 

第 18 章 主要 介绍 蜂 乌 E200 处 理 器 配套 的 SoC 如 何在 FPGA 上 实现 该 SoC 原型 。 

第 19 章 主要 介绍 如 何 使 用 SoC 的 FPGA 原型 平台 运行 真正 的 软件 示例 、 如 何 使 用 GDB 
对 程序 进行 调试 。 

第 20 章 主要 介绍 如 何 使 用 SoC 的 FPGA 原型 平台 运行 跑 分 程序 ， 对 蜂鸟 E200 处 理 器 
核 的 性 能 进行 量化 评估 。 

第 四 部 分 是 附录 部 分 ， 包 括 附录 A 一 附录 G。 该 部 分 将 对 RISC-V 指令 集 架 构 进行 详细 
介绍 ， 对 RISC-V 指令 集 架 构 细 节 感 兴趣 的 读者 可 以 先行 阅读 附录 部 分 。 

附录 A 主要 介绍 RISC-V 架构 的 指令 集 。 该 附录 翻译 自 RISC-V 的 “指令 集 文档 ”， 并 
对 相关 内 容 进行 了 重新 组 织 ， 以 求 通俗 易 懂 。 

附录 B 主要 介绍 RISC-V 架构 的 CSR 寄存 器 。 该 附录 对 于 CSR 寄存 器 的 介绍 翻译 自 
RISC-V 的 “特权 架构 文档 ” 同时 还 介绍 了 蜂鸟 E200 处 理 器 核 自 定义 的 CSR 寄存 器 。 

附录 C 主要 介绍 RISC-V 架构 定义 的 系统 平台 中 断 控制 器 (Platform Level Interrupt 
Controller，PLIC)。 该 附录 对 于 PLIC 的 介绍 翻译 自 RISC-V 的 “特权 架构 文档 ”。 

附录 D 主要 介绍 存储 器 模型 (Memory Model) 的 相关 背景 知识 ， 帮 助 读 者 更 深入 地 理 
解 RISC-V 架构 的 存储 器 模型 。 

附录 EE 主要 结合 多 线程 “ 锁 ” 的 示例 对 存储 器 原子 操作 指令 的 应 用 背景 进行 简介 。 

附录 和 附录 G 分 别 是 RISC-V 指令 的 编码 列表 和 RISC-V 伪 指 令 的 列表 。 附 录 均 节 取 
目 RISC-V 的 “指令 集 文档 ”， 供 读者 快速 查阅 。 
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由 于 时 间 仓 促 且 作者 水 平 有 限 ， 书 中 难免 存在 不 足 之 处 ， 敬 请 各 位 读者 批评 指正 。 相 关 
问题 请 与 本 书 编辑 (zhangshuang@ptpress.com.cn) 联系 交流 ， 或 到 异步 社区 (https://www. 
epubit.com/) 中 提交 勘误 。 
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当 您 发 现 错误 时 ， 请 登录 异步 社区 主页 https://www.epubit.com/， 搜 索 到 本 书页 面 ， 点 击 
“提交 勘误 ”， 输入 相应 信息 ， 最 后 点 击 “ 提 交 ” 按 钮 即 可 。 之 后 本 书 的 作者 和 编辑 会 对 您 提 
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如 果 您 对 本 书 有 任何 疑问 或 建议 ， 请 发 邮件 到 此 邮箱 ， 邮 件 标题 中 请 注 明 本 书 书 名 。 
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fF. 或 者 到 异步 社区 在 线 提交 投稿 : 

https://www.epubit.com/selfpublish/submission 

如 果 您 是 学 校 、 培 训 机 构 或 企业 ， 想 批量 购买 本 书 或 异步 社区 出 版 的 其 他 图 书 ， 请 发 邮 
件 联系 我 们 。 

如 果 您 在 网 上 发 现 有 针对 异步 图 书 的 各 种 形式 的 盗版 行为 , 包括 图 书 或 部 分 内 容 的 非 授 
权 传 播 ， 请 您 将 怀疑 有 侵权 行为 的 链接 发 邮件 给 我 们 。 您 的 举动 是 对 作者 权益 的 保护 ， 我 们 
也 由 此 才能 继续 为 您 融 来 有 价值 的 内 容 。 


关于 异步 社区 和 异步 图 书 
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近 1000 种 电子 书 ， 以 及 众多 技术 文章 和 视频 课程 。 更 多 详情 请 访问 异步 社区 官网 
https://www.epubit.com. 

异步 图 书 是 由 异步 社区 编辑 团队 策划 出 版 的 精品 IT 专业 图 书 品 牌 ， 依 托 于 人 民 邮 电 出 
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1.4 眼看 他 起 高 楼 ， 有 眼看 他 宴 宾 客 ， 眼 看 他 楼 塌 了 一 一 CPU 众 生 相 |3 


本 章 通过 几 个 轻松 的 话题 ， 讨 论 一 下 CPU 业界 的 “三 生 三 世 ”。 


1.1 E iic EN MA 众生 相 


CPU， 全 称 为 中 央 处 理 器 单元 ， 简 称 为 处 理 器 ， 是 一 个 不 算 年 轻 的 概念 。 早 在 20 世纪 
60 年 代 便 已 诞生 了 第 一 款 CPU. 

请 注意 区 分 “处 理 器 ”和 “处 理 器 核 ”“CPU” 和 “Core” 的 概念 。 严 格 来 说 , “处理 器 
核 ” 和 “Core” 是 指 处 理 器 内 部 最 核心 的 部 分 ， 是 真正 的 处 理 嚣 内核; 而 “处 理 器 ”和 “CPU” 
往往 是 一 个 完整 的 SoC,， 包 含 了 处 理 器 内 核 和 其 他 的 设备 或 者 存储 器 。 但 是 在 现实 中 大 多 数 
文章 往往 不 会 严格 地 遵循 两 者 的 差别 ， 时 常 混 用 ,因此 读者 需要 根据 上 下 文 自 行 甄别 体会 具 
体 的 含义 。 

经 过 几 十 年 的 发 展 ， 到 今天 已 经 相继 诞生 或 消亡 过 了 几 十 种 不 同 的 CPU 架构 。 表 1-1 
为 近 几 十 年 来 知名 CPU 架构 的 诞生 时 间 表 。 什 么 是 CPU 架构 ? 下 面 让 我 们 来 探讨 区 分 CPU 
的 主要 标准 : CPU 的 灵魂 指令 集 架 构 CInstruction Set Architecture, ISA). 








表 1-1 知名 CPU 架构 的 诞生 时 间 表 
CPU 架构 诞生 时 间 / 年 
IBM 701 1953 
CDC 6600 1963 
IBM 360 1964 
DEC PDP-8 1965 
Intel 8008 1972 
Motorola 6800 1974 
DEC VAX 1977 
Intel 8086 1978 
Intel 80386 1985 
ARM 1985 
MIPS 1985 
SPARC 1987 
Power 1992 
Alpha 1992 
HP/Intel IA-64 2001 


AMD64 (EMT64) 2003 
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1.1.1 ISA——CPU 的 灵魂 


指令 集 ， 顾 名 思 义 是 一 组 指令 的 集合 ， 而 指令 是 指 处 理 器 进行 操作 的 最 小 单元 〈 璧 如 加 
减 乘除 操作 或 者 读 / 写 存储 器 数据 )。 

指令 集 架 构 ， 有 时 简称 为 “架构 ”或 者 称 为 “处 理 器 架构 ”有 了 指令 集 架 构 ， 便 可 以 
使 用 不 同 的 处 理 器 硬件 实现 方案 来 设计 不 同性 能 的 处 理 器 。 处理 器 的 具体 硬件 实现 方案 称 为 
微 架 构 (Microarchitecture)。 虽 然 不 同 的 微 架 构 实现 可 能 造成 性 能 与 成 本 的 差异 ， 但 是 ， 软 
件 无 须 做 任何 修改 便 可 以 完全 运行 在 任何 一 款 遵 循 同一 指令 集 架构 实现 的 处 理 器 上 。 因 此 ， 
指令 集 架构 可 以 理解 为 一 个 抽象 层 ， 如 图 1-1 所 示 。 该 抽象 层 构 成 处 理 器 底层 硬件 与 运行 于 
其 上 的 软件 之 间 的 桥梁 与 接口 ， 也 是 现在 计算 机 处 理 器 中 重要 的 一 个 抽象 层 。 


倒数 据 类 型 
e dt mo 


令 软 件 可 见 的 处 理 器 状态 
*。 通用 寄存 器 CGeneral registers) 
* PC (Program Counter) 
*。 处 理 器 状态 《Processor status) 


€15 fk 
。 指令 类 型 与 编码 CInstructions and formats) 
* 寻 址 模式 CAddressing modes) 
。 数据 结构 (Data structures) 


令 系 统 模型 
。 状态 (States) 
。 特权 级 别 〈 Privilege Level) 
。 中 断 和 异常 〈 Interrupts and Exceptions? 


令 外 部 接口 
。 输入 输出 接口 (IO ) 
。 管理 ( Management ) 





图 1-1 指令 集 架 构 示意 图 


为 了 让 软件 程序 员 能 够 编写 底层 的 软件 ， 指令 集 架构 不 仅仅 是 一 组 指令 的 集合 ， 它 还 要 
定义 任何 软件 程序 员 需 要 了 解 的 硬件 信息 ， 包 括 支 持 的 数据 类 型 、 存 储 器 (Memory) AT 
器 状态 、 寻 址 模式 和 存储 器 模型 等 。 如 图 1-2 所 示 ，IBM 360 指令 集 架 构 是 第 一 个 里 程 碑 式 
的 指令 集 架 构 ， 它 第 一 次 实现 了 软件 在 不 同 IBM 硬件 机 器 上 的 可 移植 性 。 

综 上 可 见 ， 指 令 集 架构 才 是 区 分 不 同 CPU 的 主要 标准 ， 这 也 是 Intel 和 AMD 公司 多 年 
来 分 别 推出 了 几 十 款 不 同 的 CPU 心 片 产品 的 原因 。 虽 然 来 自 于 两 个 不 同 的 公司 ， 但 是 它们 
仍 被 统称 为 x86 架构 CPU. 
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图 1-2 IBM 360 架构 指令 集 图 卡 


1.1.2 CISC 5 RISC 


指令 集 架构 主要 分 为 复杂 指令 集 (Complex Instruction Set Computer, CISCO 和 精简 指 
令 集 (Reduced Instruction Set Computer，RISC)， 两 者 的 主要 区 别 如 下 。 
e CISC 不 仅 包 含 了 处 理 器 常用 的 指令 ,还 包含 了 许多 不 常用 的 特殊 指令 。 其 指令 数目 
比较 多 ， 所 以 称 为 复杂 指令 集 。 
。 RISC 只 包含 处 理 器 常用 的 指令 ， 而 对 于 不 常用 的 操作 ， 则 通过 执行 多 条 常用 指令 的 
方式 来 达到 同样 的 效果 。 由 于 其 指令 数目 比较 精简 ， 所 以 称 为 精简 指令 集 。 
在 CPU 诞生 的 早期 ，CISC 曾经 是 主流 ， 因 为 其 可 以 使 用 较 少 的 指令 完成 更 多 的 操作 。 
但 是 随 着 指令 集 的 发 展 ， 越 来 越 多 的 特殊 指令 被 添加 到 CISC 指令 集中 ，CISC 的 诸多 缺点 
开始 显现 出 来 。 壁 如 : 
。 典型 程序 的 运算 过 程 中 所 使 用 到 的 80% 指 令 , 只 占 所 有 指令 类 型 的 20%, 也 就 是 说 ， 
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CISC 指令 集 定 义 的 指令 ， 只 有 20% 被 经 常 使 用 到 ， 而 有 80% 则 很 少 被 用 到 。 

。 那些 很 少 被 用 到 的 特殊 指令 尤其 让 CPU 设计 变 得 极为 复杂 , 大 大 增加 了 硬件 设计 的 
时 间 成 本 与 面积 开销 。 

基于 以 上 原因 ， 自 从 RISC 诞生 之 后 ， 基 本 上 上 所 有 现代 指令 集 架 构 都 选择 使 用 RISC 架构 。 


1.4.8 32 位 与 64 位 架构 


除了 CISC 与 RISC 之 分 ， 处 理 器 指令 集 架 构 的 位 数 也 是 一 个 重要 的 概念 。 通 俗 来 讲 ， 
处 理 器 架构 的 位 数 是 指 通用 寄存 器 的 宽度 , 其 决定 了 寻 址 范围 的 大 小 、 数 据 运 算 能 力 的 强 弱 。 
譬如 32 位 架构 的 处 理 器 ， 其 通用 寄存 器 的 宽度 为 32 位， 能够 寻 址 的 范围 为 2“， 即 4GB 的 
寻 址 空间 ， 运 算 指令 可 以 操作 的 操作 数 为 32 位 。 
注意 : 处 理 器 指令 集 架 构 的 宽度 和 指令 的 编码 长 度 无 任何 关系 。 并 不 是 说 64 位 架构 的 
指令 长 度 为 64 位 〈 这 是 一 个 常见 的 误区 )。 从 理论 上 来 讲 ， 指 令 本 身 的 编码 长 度 越 短 越 好 ， 
因为 可 以 节省 代码 的 存储 空间 。 因 此 即便 在 64 位 的 架构 中 ， 也 大 量 存在 16 位 编码 的 指令 ， 
且 基 本 上 很 少 出 现 过 64 位 长 的 指令 编码 。 
综 上 所 述 ， 在 不 考虑 任何 实际 成 本 和 实现 技术 的 前 提 下 ， 理 论 上 来 讲 : 
。 通用 寄存 器 的 宽度 ， 即 指令 集 架构 的 位 数 越 多 越 好 ， 因 为 这 样 可 以 带 来 更 大 的 寻 址 
范围 和 更 强 的 运算 能 力 。 
。 指令 编码 的 长 度 越 短 越 好 ， 因 为 这 样 可 以 更 加 节省 代码 的 存储 空间 。 
常见 的 架构 位 数 分 为 8 位 、16 位 、32 位 和 64 位 。 
。 早期 的 单片机 以 8 位 和 16 位 为 主 , 譬如 知名 的 8051 单片机 是 使 用 广泛 的 8 位 架构 。 
。 目前 主流 的 能 入 式微 处 理 器 均 在 向 32 位 架构 转移 。 对 此 内 容 感 兴趣 的 读者 可 以 在 互 
联网 上 搜索 作者 曾 在 媒体 上 发 表 的 文章 《进入 32 位 时 代 ， 谁 能 成 为 下 一 个 8051》。 
e 目前 主流 的 移动 手持 、 个 人 计算 机 和 服务 器 领域 ， 均 使 用 64 位 架构 。 
有 关 峰 入 式 、 移 动手 持 、 个 人 计算 机 和 服务 器 领域 的 详情 ， 请 参见 第 1.1.5 节 关 于 CPU 
领域 之 分 的 介绍 。 


1.1.4 ISA 众生 相 


第 1.1.1 节 中 提 到 ， 经 过 几 十 年 的 发 展 ， 全 世界 范围 内 至 今 已 经 相继 诞生 或 消亡 过 了 几 
十 种 不 同 的 指令 集 架 构 。 下 面 将 针对 几 球 比较 知名 的 指令 集 架 构 加 以 论述 。 

注意 : 下 列 章节 中 列举 的 信息 来 自 于 本 书 成 书 时 的 公开 信息 ， 非 官方 正式 信息 ， 请 读者 
以 最 新 官方 信息 为 准 。 

1. x86 

x86 是 由 Intel 公司 推出 的 一 种 复杂 指令 集 (CISC), F 1978 年 推出 的 Intel 8086 处 理 器 
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中 首 度 出 现 ， 如 图 1-3 所 示 。8086 在 3 年 后 为 [BM 所 选用 ， 之 后 Intel 与 微软 公司 结 成 了 所 
谓 的 Windows-Intel (Wintel) 商业 联盟 ， 垄 断 了 个 人 计算 机 (Personal Computer, PC) 软 硬 
件 平台 至 今 几 十 年 而 获得 了 丰厚 的 利润 。x86 架构 也 因此 几乎 成 为 了 个 人 计算 机 的 标准 处 理 
器 架构 ， 而 Intel 的 广告 标志 更 是 深入 人 心 ， 如 图 1-4 所 示 。 


i in tel inside 





图 1-3 Intel 8086 处 理 器 图 1-4 Intel Inside 广告 标语 


除 Intel 之 外 最 成 功 的 制造 商 之 一 为 AMD。 Intel 与 AMD 公司 是 现今 主要 的 x86 处 理 器 
芯片 提供 商 。 其 他 若干 几 个 公司 也 曾经 制造 过 x86 架构 的 处 理 器 ， 包 括 Cyrix (为 VIA 所 收 
购 )、NEC、IBM、IDT 以 及 Transmeta- 

x86 架构 由 Intel 与 AMD 共同 经 过 数 代 的 发 展 ， 相 继 从 最 初 的 16 位 架构 发 展 到 如 今 的 
64 位 架构 。 在 x86 架构 刚 诞生 的 时 代 ，CISC 还 是 业界 主流 ， 因 此 ，x86 架构 是 具有 代表 性 
的 可 变 指令 长 度 的 CISC 指令 架构 ,虽然 之 后 RISC 已 经 取代 CISC 成 为 现代 指令 集 架 构 的 主 
流 ， 但 是 ， 由 于 Intel 公司 的 巨大 成 功 以 及 为 了 维护 软件 的 同 后 兼容 性 ，x86 作为 一 种 CISC 
架构 被 一 直 保 留 下 来 。 事 实 上 ，Intel 公司 通过 内 部 “ 微 码 化 ”的 方法 克服 挥 了 CISC 架构 的 
部 分 缺点 ， 加 上 Inte 高 超 的 CPU 设计 水 平 与 工艺 制造 水 平 ， 使 得 x86 处 理 器 一 直 保 持 着 旺 
盛 的 战斗 力 ， 不 断 刷 新 个 人 计算 机 处 理 器 已 片 性 能 的 极限 。 所 谓 “ 微 码 化 ”是 指 将 复杂 的 
CISC 指令 先 用 硬件 解码 器 翻译 成 对 应 的 内 部 简单 指令 〈 微 码 ) 序列 ， 然 后 送 给 处 理 器 流水 
线 执行 的 方法 ， 使 得 x86 的 处 理 器 核 也 变 成 了 一 种 RISC 的 形式 ， 从 而 能 够 借鉴 RISC 架构 
的 优点 。 不 过 ， 额 外 的 硬件 解码 器 同样 也 会 带 来 额外 的 复杂 度 与 面积 开销 ， 这 是 x86 架构 作 
为 一 种 CISC 架构 不 得 不 付出 的 代价 。 

x86 架构 不 仅 在 个 人 计算 机 领域 取得 了 统治 性 的 地 位 ， 还 在 服务 器 市 场 取得 了 巨大 成 功 。 
相 比 x86 架构 ，IBM 的 Power 架构 和 Sun 的 SPARC 架构 都 曾 有 着 很 明显 的 性 能 优势 , 也 曾 占 
据 着 相当 可 观 的 服务 器 市 场 。 但 是 Intel 采用 仅 提供 处 理 器 必 片 而 不 直接 生产 服务 器 的 策略 ， 
利用 广大 的 第 三 方 服务 器 生产 商 ， 结 合 Wintel 的 强大 软 硬 件 联盟 ， 成 功 地 将 从 处 理 器 芯片 到 
服务 器 系统 一 手包 办 的 IBM 与 Sun 公司 击败 。 至 今 x86 架构 占据 了 超过 90% 的 服务 器 市 场 。 

2. SPARC 

1985 Œ, Sun 公司 设计 出 SPARC 指令 集 架 构 ， 全 称 为 “可 扩充 处 理 器 架构 〈Scalable 
Processor ARChitecture，SPARC )”， 是 一 种 非常 有 代表 性 的 高 性 能 RISC 架构 。 之 后 ，Sun 
公司 和 TI 公司 合作 开发 了 基于 该 架构 的 处 理 器 必 片 。SPARC 处 理 器 为 Sun 公司 赢得 了 当时 
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高 端 处 理 器 市 场 的 领先 地 位 。1995 年 ，Sun 公司 推出 了 
UltraSPARC 处 理 器 ， 开 始 进入 64 位 架构 。SPARC 28 
构 设 计 的 出 发 点 是 服务 于 工作 站 ， 它 被 应 用 在 Sun. & 
士 通 等 制造 的 大 型 服务 器 上 ， 如 图 1-5 所 示 。1989 年 
SPARC 还 作为 独立 的 公司 而 成 立 ， 其 目的 是 癌 外 界 推 
广 SPARC， 以 及 为 该 架构 进行 兼容 性 测试 。Oracle 收 
购 Sun 公司 之 后 ，SPARC 架构 归 Oracle 所 有 。 

由 于 SPARC 架构 是 面向 服务 器 领域 而 设计 的 ， 其 
最 大 的 特点 是 拥有 一 个 大 型 的 寄存 器 窗口 ，SPARC 架 
构 的 处 理 器 需要 实现 从 72 到 640 个 之 多 的 通用 寄存 器 ， - 
每 个 寄存 器 宽度 为 64 位 ， 组 成 一 系列 的 寄存 器 组 ， 称 。 图 15 ET SPARC 架构 的 服务 器 
为 寄存 器 窗口 。 这 种 寄存 器 窗口 的 架构 由 于 可 以 切换 不 同 的 寄存 器 组 快速 地 啊 应 函数 调用 与 
返回 ， 因 此 能 够 带 来 非常 高 的 性 能 ， 但 是 这 种 架构 由 于 功 耗 面积 代价 太 大 而 并 不 适用 于 PC 
E UN SAL P RR o 

前 面 提 到 了 Sun 公司 在 服务 器 领域 与 Intel 竞争 逐渐 落 败 ， 因 此 ,SPARC HERS AE U 
的 份额 也 逐步 地 缩减 。 而 SPARC 架构 又 不 适用 于 PC 与 众 入 式 领 域 ， 使 得 其 局 面 十 分 伸 途 。 

SPARC 架构 应 用 的 另外 一 个 比较 知名 的 领域 是 航天 领域 。 由 于 美国 的 航天 星 载 系统 中 
普遍 使 用 的 Power 架构 〈 有 关 Power 架构 参见 本 书后 面 关 于 Power 的 介绍 )， 欧 洲 太 空 局 为 
了 独立 发 展 自己 的 航天 能 力 而 选择 了 开发 基于 SPARC 架构 的 LEON 处 理 器 ， 并 对 其 进行 了 
抗 辐射 加 固 设计 ， 使 之 能 够 应 用 于 航天 环境 中 。 

值得 强调 的 是 , 欧洲 太空 局 选择 在 航天 领域 使 用 SPARC 架构 并 不 代表 SPARC 架构 特别 
适用 于 航天 领域 ,而 是 因为 SPARC 在 当时 是 一 种 相对 开放 的 架构 。SPARC HEK 58 FS 1 2E 
断 或 占据 航天 领域 的 优势 地 位 ， 因 为 从 本 质 上 来 讲 ， 航 天 领域 处 理 器 对 于 指令 集 架 构 本 里 并 
无 特殊 要 求 ， 其 需求 的 主要 特性 是 提供 工艺 上 的 加 固 单元 和 硬件 系统 的 容错 性 处 理 (为 了 防 
止 外 太空 强 辐 射 造 成 电路 失常 )。 因 此 ， 很 多 的 航天 处 理 器 也 采用 了 其 他 的 处 理 右 架构 ， 避 
如 目前 新 开发 的 很 多 航天 处 理 器 也 在 使 用 新 的 ARM 或 者 RISC-V 架构 (有关 RISC-V 架构 
参见 第 1.5 节 )。 

2017 年 9 H, Oracle 公司 宣布 正式 放弃 硬件 业务 ， 目 然 也 包括 了 收购 目 Sun 的 SPARC 
处 理 器 ， 至 此 ，SPARC 处 理 器 可 以 说 正式 退出 了 历史 舞台 。 此 消息 一 经 发 出 ， 引 起 了 很 多 
WAAK, 感 兴趣 的 读者 请 在 网 络 上 自行 搜索 文章 《再 见 SPARC 处 理 器 , 再 见 Sun). 

3. MIPS 

MIPS (Microprocessor without Interlocked Piped Stages Architecture) 处 为 Millions of 
Instructions Per Second 的 相关 语 , 是 一 种 简洁 、 优化 的 RISC 架构 。MIPS 可 以 说 是 身 出 名 门 ， 
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由 斯 坦 福 大 学 的 Hennessy 教授 (计算 机 体系 结构 领域 泰斗 之 一 ) 领导 的 研究 小 组 研制 开发 。 
由 于 MIPS 是 经 典 的 RISC 架构 ,因此 是 如 今 除 了 ARM 之 外 被 人 耳熟能详 的 RISC 架构 。 
最 早 的 MIPS 架构 是 32 位 ， 最 新 的 版 本 已 有 64 位 。 
自从 1981 年 由 MIPS 科技 公司 开发 并 授权 后 ，MIPS 架构 曾经 作为 最 受 欢 迎 RISC 架构 
被 广泛 应 用 在 许多 电子 产品 、 网 络 设备 、 个 人 娱乐 装置 与 商业 装置 上 。 它 曾经 在 租 入 式 设备 
与 消费 领域 里 占据 很 大 的 份额 ， 如 SONY., Nintendo 的 游戏 机 、Cisco 的 路 由 器 和 SGI 超级 
计算 机 都 有 MIPS 的 身影 。 
但 是 由 于 一 些 商业 运作 的 原因 ,MIPS 被 同属 RISC 阵营 的 ARM 后 来 居 上 。2013 Æ MIPS 
被 英国 公司 Imagination Technologies 收购 ， 可 惜 的 是 ，MIPS 被 Imagination 收购 后 ， 非 但 没 
有 发 展 ， 反 而 日 渐 衰 落 。2017 年 Imagination 自身 出 现 危 机 而 整体 寻求 出 售 ，MIPS 再 次 面临 
被 出 售 的 命运 。 
4. Power 
Power 架构 是 IBM 开发 的 一 种 RISC 架构 指令 集 。1980 年 IBM 推出 了 全 球 第 一 台 基 于 
RISC 架构 的 原型 机 ， 证 明 RISC 相 比 CISC 在 高 性 能 领域 优势 明显 。1994 年 IBM 基于 此 推 
出 PowerPC604 处 理 器 ， 其 强大 的 性 能 在 当时 处 于 全 球 领 先 地 位 。 
基于 Power 架构 的 IBM Power 服务 器 系统 在 可 靠 性 、 可 用 性 和 可 维护 性 等 方面 表现 出 
色 ， 使 得 IBM 从 芯片 到 系统 所 设计 的 整 机 方案 有 着 独 有 的 优势 。Power 架构 的 处 理 器 在 超 
算 、 银 行 金融 、 大 型 企业 的 高 端 服务 器 等 多 个 方面 应 用 十 分 成 功 。 IBM 至 今 仍 在 不 断 开 发 新 
的 Power 架构 处 理 器 : 
e 2013 年 ，IBM 宣布 了 新 一 代 服 务 器 处 理 器 Power8. Powers 的 核心 数量 达 12 个 ， 而 
且 每 个 核心 都 支持 8 线程 ， 总 线程 多 达 96 个 。 它 采用 了 8 派发 、10 发 射 、16 级 流 
水 线 的 设计 ， 各 项 规格 均 强 大 得 令 人 惊叹 。 
。 2016 年 IBM 公司 公布 了 其 Power9 &b3823, IBM 于 2017 年 推出 Power9 拥有 24 个 
计算 核心 ， 是 Power8 芯片 的 两 倍 。 
e IBM 计划 在 2020 年 推出 Power10，2023 年 推出 Powerll 处 理 器 。 
5. Alpha 
Alpha 也 称 为 Alpha AXP， 是 一 种 64 位 的 RISC 指令 集 架 构 ， 由 DEC 公司 设计 开发 ， 
被 用 于 DEC 自己 的 工作 站 和 服务 器 中 。 
Alpha 是 一 款 优秀 的 处 理 器 ， 它 不 仅 是 最 早 跨 过 GHz 的 企业 级 处 理 器 ,而 且 还 是 最 早 计 
划 采 用 双核 ， 甚 至 是 多 核 架 构 的 处 理 器 。 然 而 ，Alpha 心 片 和 采用 此 疼 片 的 服务 器 并 没有 得 
到 整个 市 场 的 认同 ， 只 有 少数 人 选择 了 Alpha 服务 器 。 据 称 其 价格 高 昂 、 安 装 复杂 ， 部 署 实 
施 远 远 超过 一 般 企 业 IT 管理 人 员 所 能 承受 的 难度 。2001 年 ， 康 柏 收购 DEC 之 后 ， 逐 步 将 
其 全 部 64 位 服务 器 系列 产品 转移 到 Intel 的 安 腾 处 理 器 架构 之 上 。2004 年 ， 惠 普 收 购 康 相 ， 
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从 此 Alpha 架构 逐渐 淡出 了 人 们 的 视野 。 

6. ARM 

由 于 ARM 架构 过 于 声名 显赫 ， 后续 会 有 专门 的 小 市 重点 论 
述 ARM， 在 此 不 单独 论述 。 

7. ARC 

ARC 架构 处 理 器 是 Synopsys 公司 推出 的 32 位 RISC 结构 微 
处 理 器 系列 IP. ARC 处 理 器 的 IP 产品 线 覆 盖 了 从 低 端 到 高 端 各 
个 领域 的 嵌入 式 处 理 器 ， 如 图 1-6 所 示 。 

ARC 架构 处 理 器 以 极 高 的 能 效 比 见长 ， 出 色 的 硬件 微 架 构 
使 得 ARC 处 理 器 的 各 项 指标 均 令 人 印象 深刻 。ARC 处 理 吉 IP 
以 追求 功 耗 效率 比 (DMIPS/mW) 和 面积 效率 比 CDMIPS/mm^) j 
最 优化 为 目标 , UW ERARA EEAS m H a de e HJ XC 1-6 ARC 处 理 器 IP 系列 
能 要 求 。 

ARC 处 理 器 的 另外 一 个 最 大 的 特点 是 其 高 度 可 配置 性 ， 可 通过 增加 或 删除 功能 模块 ， 
满足 不 同 的 应 用 需求 ， 通 过 配置 不 同属 性 实现 快速 系统 集成 ， 做 到 “量体裁衣 ”。 

ARC 是 除了 ARM 之 外 的 全 球 第 二 大 榜 入 式 处 理 器 IP 供应 商 ， 全 球 已 有 超过 170 家 客 
户 使 用 Synopsys ARC 处 理 器 ， 这 些 客户 每 年 总 共产 出 高 达 15 亿 块 基于 ARC 的 芯片 。 

8. Andes 

Andes 架构 处 理 器 是 中 国 台 湾 省 的 晶 心 (Andes) 公司 推出 的 一 系列 32 位 RISC 架构 处 
理 器 IP。 据 2016 年 的 统计 数字 ， 采 用 Andes 指令 集 架 构 的 系统 芯片 出 货 量 超过 4.3 (59, 
总 累计 出 货 量 超过 19 (58i. 2017 Æ, Andes 发 布 最 新 一 代 的 AndeStarrM 处 理 器 架构 ， 成 为 
商用 主流 CPU IP 公司 中 第 一 家 纳入 开放 RISC-V 指令 集 架 构 的 公司 。 

9. C-Sky 

C-SKY 架构 处 理 器 是 由 杭州 中 天 微 系统 有 限 公 司 开发 的 一 系列 32 or if ERRIRE BRA. 
式 处 理 器 PP。 杭州 中 天 是 国内 CPU PARKE, C-SKY RIAR CPU 核 ， 具 有 低 功 
耗 、 高 性 能 、 高 代码 密度 、 易 使 用 等 特点 。 


1.1.5 CPU 的 领域 之 分 


本 节 将 对 CPU 的 不 同 应 用 领域 加 以 探讨 。 
在 传统 的 计算 机 体系 结构 分 类 中 ， 处 理 器 应 用 分 为 3 个 领域 一 -服务 器 领域 、PC 领域 
NA B stet. 
。 服务 器 领域 在 早期 还 存在 着 多 种 不 同 的 架构 呈 群 雄 分 立 之 势 ， 不 过 ， 由 于 Intel 公司 
商业 策略 上 的 成 功 ， 目 前 Intel 的 x86 处 理 器 芯片 几乎 成 为 了 这 个 领域 的 霸主 。 





ARCvI 
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e PC 领域 本 身 是 由 Windows/Intel 软 硬 件 组 合 发 展 而 壮大 ， 因 此 ，x86 架构 是 目前 PC 
领域 的 垄断 者 。 

o 传统 的 散 入 式 领域 所 指 范畴 非常 广泛 ， 是 人 处理 右 除了 服务 器 和 PC 领域 之 外 的 主要 
应 用 领域 。 所 谓 “ 藤 入 式 ” 是 指 在 很 多 芯片 中 ， 其 所 包含 的 处 理 器 就 像 坐 入 在 里 面 
不 为 人 知 一 样 。 

近年 来 随 着 各 种 新 技术 新 领域 的 进一步 发 展 , 髓 入 式 领域 本 里 也 被 发 展 成 了 几 个 不 同 的 

子 领域 而 产生 了 分 化 。 

。 首先 是 随 着 智能 手机 (Mobile Smart Phone) 和 手持 设备 (Mobile Device) 的 发 展 ， 
移动 (Mobile) 领域 逐渐 发 展 成 了 规模 匹敌 甚至 超过 PC 领域 的 一 个 独立 领域 , 其 主 
要 由 ARM 的 Cortex-A 系列 处 理 器 架构 所 垄断 。 由 于 Mobile 领域 的 处 理 器 需要 加 载 
Linux 操作 系统 ， 同 时 涉及 复杂 的 软件 生态 ， 因 此 ， 其 具有 和 PC 领域 一 样 对 软件 生 
态 的 严重 依赖 。 目 前 既然 ARM Cortex-A 系列 已 经 取得 了 绝对 的 统治 地 位 ， 其 他 的 
处 理 器 架构 很 难 再 进入 该 领域 。 

。 其 次 是 实时 (Real Time) 般 入 式 领 域 。 该 领域 相对 而 言 没 有 那么 严重 的 软件 依赖 性 ， 
因此 没有 形成 绝对 的 垄断 ， 但 是 由 于 ARM 处 理 器 IP 商业 推广 的 成 功 ， 目 前 仍然 以 
ARM 的 处 理 器 架构 占 大 多 数 市 场 份额 ， 其 他 处 理 器 架构 璧 如 Synopsys ARC 等 也 有 
不 错 的 市 场 成 绩 。 

。 最 后 是 深 峙 入 式 领 域 。 该 领域 更 像 前 面 所 指 的 传统 供 入 式 领 域 。 该 领域 的 需求 量 非 
常 之 大 ， 但 往往 注重 低 功 耗 、 低 成 本 和 高 能 效 比 ， 无 须 加 载 像 Linux 这 样 的 大 型 应 
用 操作 系统 ， 软 件 大 多 是 需要 定制 的 裸 机 程序 或 者 简单 的 实时 操作 系统 ， 因 此 对 软 
件 生 态 的 依赖 性 相对 比较 低 。 在 该 领域 很 难 形成 绝对 的 垄断 ， 但 是 由 于 ARM 处 理 
器 IP 商业 推广 的 成 功 ， 目 前 仍然 以 ARM 的 Cortex-M 处 理 器 占据 大 多 数 市 场 份 额 ， 
其 他 的 架构 譬如 Synopsys ARC 和 Andes 等 也 有 非常 不 错 的 表现 。 

综 上 所 述 ， 由 于 移动 (Mobile) 领域 崛起 成 为 一 个 独立 的 分 类 领域 ， 现 在 通 和 营 所 指 的 贡 

入 式 领 域 往往 是 指 深 垦 入 式 领 域 或 者 实时 岁入 式 领域 。 
X 1-2 是 对 目前 CPU 典型 应 用 领域 及 其 主流 的 架构 进行 的 总 结 。 


表 1-2 处 理 器 的 应 用 领域 及 主流 架构 
osx 主流 架构 
服务 器 (Server) 领域 Intel 公司 x86 架构 的 高 性 能 CPU i5 2EISr RS fr 
桌面 个 人 计算 机 PO 领域 Intel 或 者 AMD 公司 x86 架构 的 CPU ;* 2E Ir 
嵌入 式 移动 手持 设备 “Mobile) 领域 ARM Cortex-A 架构 占 菊 断 地 位 
磁 入 式 实时 设备 (Real Time) 领域 ARM 架构 占 最 大 份额 ， 其 他 RISC 架构 的 嵌入 式 CPU EA TREES] ERO 


RA (Deep Embedded) 领域 ARM 架构 占 最 大 份额 ， 其 他 RISC RRRA CPU 也 有 第 错 的 表现 
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ISA 请 打 起 这 口 锅 一 一 为 什么 国产 CPU 疝 未 足够 成 功 





众所周知 ， 心 片 是 我 国信 息 产业 发 展 的 核心 领域 ， 而 CPU 则 代表 了 必 片 中 的 核心 技术 。 在 
此 方面 ， 我 国 与 发 达 国 家 相 比 有 着 明显 的 差距 。 虽 然 经 过 多 年 的 努力 ， 技 术 差 距 已 经 有 了 显著 
的 缩小 ， 但 是 在 氏 用 商业 领域 内 ， 仍 然 没 有 看 到 太 多 国产 CPU 的 喘 影 。 是 什么 原因 造成 国产 商 
业 CPU 尚未 足够 成 功 这 一 现状 呢 ? 接 下 来 ,我 们 便 细 数 一 下 国内 目 主 开发 CPU 的 公司 与 现状 ， 
以 及 它们 选择 的 指令 集 流 派 。 通 过 逐一 分 析 其 过 去 与 现状 ， 相 信 能 够 让 读者 得 到 答案 。 


1.2.1 MIPS 系 一 一 龙 心 和 君 正 


1. 龙芯 
龙 必 CPU 由 中 国 科 学 院 计 算 技术 所 龙 心 课题 组 研制 ， 由 中 国 科 学 院 计算 技术 所 授权 的 
北京 神州 龙 必 集成 电路 设计 公司 研发 。 以 下 是 龙 必 CPU 芯片 的 相关 简介 。 
e 龙 心 1 号 的 频率 为 266MHz， 最 早 在 2002 年 开始 
使 用 ， 如 图 1-7 所 示 。 
e 龙 心 2 号 的 频率 最 高 为 1GHz。 
e JED 3A 系列 是 国产 商用 4 核 处 理 器 。 最 新 龙 必 
3A3000 基于 中 芯 28nm FDSOI 工艺 ， 设 计 为 4 
核 64 位 ， 主 频 为 1.53GHz， 功 耗 仅 为 30W， 非 常 
适合 笔记 本 平台 。 
e Jt 3B 系列 是 国产 商用 8 核 处 理 器 ， 主 频 超 过 
1GHz， 支 持 向 量 运 算 加 速 ， 峰 值 计 算 能 力 达 到 每 秒 1.28x10 亿 次 浮 点 运算 ,具有 很 
高 的 性 能 功 耗 比 。 龙 心 3B 系列 主要 用 于 高 性 能 计算 机 、 高 性 能 服务 器 、 数 字 信 号 处 
理 等 领域 。 
2. HIE 
国内 的 MIPS 系 还 有 另外 一 家 公 局 京 君 正 。 君 正和 龙 心 同属 于 MIPS 阵营 ， 与 龙 
心 着 力 于 果 面 PC 处 理 器 不 同 ， 北 京 君 正 是 国内 较 早 专注 于 可 穿戴 、 物 联网 领域 的 本 土 IC 
设计 公司 之 一 。 由 于 和 仍 入 式 必 片 的 软件 一 般 按 需 求 定制 。 这 导致 在 智能 可 穿戴 市 场 ， 相 当 一 
部 分 可 穿戴 产品 和 应 用 软件 具有 专用 性 ， 软 件 生 态 链 相对 较 短 ， 加 上 应 用 需求 的 多 样 化 ， 
此 条 能 用 一 套 通用 方案 来 满足 所 有 人 的 要 求 ， 所 以 在 这 个 领域 没有 某 个 厂商 可 以 实现 垄断 。 
因此 , 在 智能 穿戴 市 场 不 容易 出 现 PC 和 移动 手机 市 场 那 样 被 x86 与 ARM 架构 垄断 的 情况 。 
智能 穿戴 必 片 和 物 联 网 芯片 对 性 能 要 求 不 高 ， 大 部 分 应 用 场景 更 关注 低 功 耗 、 廉 价 和 尺 





图 1-7 龙 蕊 处 理 器 芯片 
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二 等 因素 ， 君 正 的 产品 完全 满足 性 能 要 求 ，x86 处 理 器 不 可 能 应 用 于 该 领域 ，ARM 阵营 IC 
设计 公司 受制 于 相对 较 高 的 授权 费 ， 在 芯片 产量 较 小 的 情况 下 ， 并 不 具备 价格 上 的 竞争 力 。 
君 正 拥有 十 多 年 的 亿 片 设计 经 验 和 技术 积累 ， 其 最 大 的 特点 就 是 具有 较 高 的 性 能 功 耗 比 。 
内 第 一 批 上 市 的 智能 手表 包括 果 壳 的 第 一 代 智 能 手表 、 土 曼 一 代 、 土 曼 二 代 智 能 手表 等 都 采 
用 了 君 正 的 方案 。 


1.2.2 x86 系 一 一 北大 众 记 、 焰 心 和 海光 


L «o 414-1 

北京 北大 众 志 微 系统 科技 有 限 责任 公司 成 立 于 2002 年 11 月 , 是 国家 集成 电路 设计 行业 
的 重要 骨干 企业 。2005 年 ，AMD 与 中 国政 府 达 成 了 协议 ， 科 技 部 指定 北大 微 电 子 中 心 接收 
AMD Geode-2 处 理 右 的 技术 授权 ，AMD 的 处 理 器 无 疑 是 x86 架构 ， 中 国 因 此 获得 了 x86 技 
术 。 不 过 Geode 处 理 器 属于 AMD RARAHI, AE AMD 授权 给 北大 的 x86 HERJET 
ATZE. 

2. JE 

另外 一 家 使 用 x86 架构 的 国内 企业 一 一 兆 蕊 ， 
也 许 被 更 多 的 人 所 熟知 。 众 所 周知 ， 核 心 的 x86 AE 
构 是 Intel 和 AMD 公司 的 核心 技术 ， 美 国政 府 也 
会 严格 控制 其 技术 的 授权 。 不 过 ， 除 了 Intel 和 
AMD， 夯 外 一 家 中 国人 台湾 公司 威盛 (VIA) 也 曾经 
拥有 x86 架构 授权 。 如 图 1-8 所 示 ， 兆 芯 自 主 研发 
的 ZX-C 处 理 器 于 2015 年 4 月 量 产 ，28nm LË, 
4 核 处 理 器 ， 主 频 可 达 2.0GHz, 并 且 支 持 国 密 算法 
加 密 。2017 年 兆 必 宣布 其 最 新 一 代 ZX-D 系列 4 
核 和 8 核 通用 处 理 器 已 经 成 功 流 片 ， 并 透露 将 在 2018 年 推出 16nm 的 ZX-E 8 核 CPU。 

3. 海光 

除了 上 海 兆 人 芯 ， 还 有 一 家 诞生 不 和 久 的 新 锐 公 司 一 一天 津 海 光 。2016 年 ，AMD 宣布 与 中 国 
天 津 海光 投资 公司 达成 了 协议 ， 将 x86 技术 授权 给 海光 公司 ， 获 得 授权 费 ， 并 且 双 方 还 会 成 
立 合 资 公司 ,授权 其 生产 服务 器 处 理 器 。 据 称 ， 为 了 打开 中 国 高 性 能 服务 器 市 场 ，AMD 这 次 
授权 给 中 国 公司 的 x86 很 可 能 是 最 尖端 的 x86 技术 。 对 于 海光 的 表现 ， 也 值得 我 们 拭目以待 。 


1.2.3 Power Z&——— rh RRi 
HAEA IBM 的 Power 架构 一 直 是 高 性 能 的 代言 。IBM 于 2013 年 联合 NVIDIA 等 公司 








图 1-8 ” 兆 芯 处 理 器 芯片 
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成 江 OpenPower 开放 联盟 ， 其 他 公司 也 可 以 获得 Power 架构 授权 。 此 后 还 推动 成 立 了 中 国 
POWER 技术 产业 生态 联盟 ， 与 多 家 中 国 公司 俭 普 了 授权 协议 ， 中 成 宏 必 就 是 其 中 的 一 家 
中 履 宏 心 成 立 于 2013 年 ， 相 信 宏 必 能 用 大 二 年 的 时 间 实 现 技术 的 消化 吸收 和 推陈出新 。 


1.24 Alpha 系 一 一 申 威 


申 威 处 理 器 或 申 威 CPU， 简 称 “SW 处 理 器 ”。 

申 威 对 自主 的 Alpha 架构 在 不 断 深化 升级 , EN 
核 Alpha 基础 上 拓展 了 多 核 染 构 和 SIMD 等 特色 扩展 
指令 集 , 主要 面向 高 性 能 计算 、 服 务 器 领域 , 在 2016 
年 国际 超 算 大 会 评比 中 ， 基 于 申 威 26010 人 处理 器 的 
“神威 太湖 之 光 ” 超 级 计算 机 系统 (如 图 1-9 所 示 ) 
首次 亮相 并 夺冠 ， 其 峰值 性 能 达 每 秒 12.5 X10 亿 次 


浮 点 运算 , 成 为 世界 首 台 运 行 速度 超 10” 亿 次 的 超级 图 1-9 基于 申 威 处 理 器 的 
计算 机 。 神威 太湖 之 光 超 级 计算 机 





1.2.5 ARM 系 一 一 飞腾 、 华 为 海 思 、 展 讯 和 华 心 通 


为 了 更 好 地 理解 本 节 的 内 容 ， 有 必要 先 对 ARM 的 授权 模式 进行 介绍 。 简 而 言 之 ，ARM 
公司 的 主要 授权 模式 可 以 分 为 两 种 。 
。 授权 “ARM 处 理 器 IP” 给 其 他 的 芯片 生 产 商 (合作 伙伴 )， 后 者 直接 使 用 ARM 处 
理 器 IP 设计 SoC 4H. 
e 授权 “ARM 架构 ”给 其 他 的 芯片 生产 商 (合作 伙伴 )， 后 者 基于 ARM 架构 上 自 研 其 
处 理 器 核 ， 然 后 使 用 自 研 处 理 器 核 设 计 SoC 44. 
参见 第 1.4.1 节 了 解 更 多 信息 。 
注意 : 购买 ARM 的 处 理 器 IP 进行 SoC 芯片 开发 的 国内 公司 众多 ， 但 是 由 于 其 直接 使 
用 ARM 公司 的 处 理 器 了， 并 不 属于 真正 的 自主 “处 理 器 核 ” 开 发 ， 所 以 不 在 本 书 的 讨论 之 
列 。 而 授权 “ARM 架构 ”进行 处 理 器 核 的 目 研 ， 目 前 国内 只 有 飞腾 、 海 思 和 展讯 等 具备 这 
样 的 实力 ， 下 面 分 别 予 以 介绍 。 
1. 飞腾 
飞腾 公司 是 中 国 国 防 科技 大 学 高 性 能 处 理 器 研究 团队 建立 的 企业 ， 国 防 科大 多 年 来 在 
CPU 领域 的 耕耘 积累 了 雄厚 的 技术 实力 。2016 年 天 津 飞腾 公布 了 最 新 产品 FT2000, 它 最 早 亮 
HF 2015 年 的 HotChips 大 会 , 代号 “火星 ” 定位 于 高 性 能 服务 器 、 行 业 业 务 主 机 等 。FT2000 
采用 ARMv8 指令 集 ， 但 是 使 用 上 自 研 内 核 ， 不 同 于 市 面 上 ARMV8 的 Cortex-AS3\A5S7\A72 CÉ 
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接 购 买 于 ARM 公司 的 内 核 )。 

FT2000 之 所 以 引 人 注 目 还 因为 它 在 性 能 方面 ， 包 括 高 达 64 个 FTC661 处 理 器 核 ， 其 公 
布 的 Spec 2006 测试 中 ， 成 绩 为 整数 672、 浮 点 585， 足 以 和 Xeon E5 一 2699v3 HER. X 
也 是 国产 服务 器 芯片 第 一 次 在 性 能 上 追 平 mntel， 存 储 器 控制 芯片 总 聚合 带宽 为 204.8GB/s， 
超过 目前 的 ESV3 和 E7V3, 接近 IBM POWER8(230GB/s)。 跑 分 与 Intel 的 Xeon ES —2699v3 
HEKERE KE 2000 对 于 很 多 商业 应 用 来 说 已 经 完全 人 够 用 了 ， 只 要 软件 生态 跟 得 上 ， 完 
全 可 以 在 商业 市 场 上 取代 Intel 的 某 些 产品 。 

2. -华为 海 思 

华为 海 思 目 前 是 我 国 技术 最 强大 的 必 片 开发 商 之 一 。 华 为 的 麒麟 芯片 在 性 能 上 与 高 通 、 
三 星 这 些 领先 的 芯片 企业 处 于 一 个 水 平 。 同 时 华为 目前 也 是 国内 四 大 服务 器 提供 商 之 一 ， 华 
为 、 联 想 、 浪 潮 等 国产 服务 器 企业 占有 中 国 服务 器 市 场 的 份额 已 经 超过 65%。 华 为 在 几 年 前 
便 已 经 购买 了 ARM 指令 集 架 构 授 权 ， 开 始 研 发 自 有 的 处 理 器 核 ， 主 攻 服 务 器 市 场 。 

在 “十 二 五 ”科技 创新 成 就 展 上 ， 华 为 展 出 了 其 第 一 台 ARM 平台 服务 器 “泰山 ”， 配 
备 自主 研发 ARM 架构 64 位 处 理 器 “Hi1612”， 采 用 台积电 16nm 工艺 ， 拥 有 多 达 16 个 核 
(^. HX ARMv8-A 指令 集 。 凭 借 华 为 强大 的 研发 实力 与 市 场 运作 能 力 ， 相 信 一 定 会 有 不 
俗 的 表现 。 

3. 展讯 

除 华为 之 外 , 展讯 是 另 一 家 国内 手机 必 片 的 翘楚 。2016 年 展讯 的 芯片 出 货 达到 6.7 亿 套 ， 
2017 年 6 月 宣布 成 功 研 发 其 和 目 主 的 ARM 架构 处 理 器 , 展讯 宣称 在 SC9850 4 核 CCortex-A7) 
蕊 片 同样 大 的 面积 上 实现 了 6 核 的 设计 ， 功 耗 和 性 能 都 可 以 按照 自己 的 需求 调配 ， 标志 着 展 
讯 成 为 了 除 苹 果 、 三 星 两 家 智能 手机 厂商 之 外 (三 星 和 苹果 的 自主 芯片 主要 都 是 自用 )， 继 
高 通 之 后 ， 第 二 家 拥有 自主 ARM CPU 关键 技术 的 手机 芯片 厂商 。 

4. 华 心 通 

2016 年 ， 高 通 与 中 国 贵 州 政府 合资 在 华 成 立 了 一 家 芯片 公司 一 一 华 芯 通 半 导体 ， 旨 在 
专门 为 中 国 市 场 设 计 与 开发 服务 器 专用 芯片 的 公司 。 华 芯 通 已 获 ARM v8-A 架构 授权 ,并 表 
示 中 国 成 为 全 球 第 二 大 数据 中 心 市 场 , 该 授权 将 帮助 华 心 通 半导体 在 快速 扩张 的 中 国 服务 器 
市 场 推 出 先进 服务 器 芯片 组 技术 ， 帮 助 中 国企 业 在 本 土 市 场 提 供 基 于 ARM 的 服务 器 技术 ， 
从 而 推动 高 效 服 务 器 解决 方案 的 大 规模 部 署 。 


1.2.6 ” 背 锅 侠 ISA 


从 上 述 几 个 章节 中 ， 我 们 已 经 了 解 了 国内 CPU 设计 的 英雄 榜 。 但 是 如 前 文 所 述 ， 目 前 
在 民用 商业 领域 内 ， 仍 然 没 有 看 到 太 多 国产 CPU 的 身影 。 可 以 说 ， 国 产 处 理 器 在 民用 商业 
领域 至 今 尚 未 足够 成 功 的 主要 原因 在 于 ISA， 这 口 锅 ISA 必 背 无 疑 。 
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在 第 1.1.1 节 中 已 经 论述 了 指令 集 架 构 (ISA) 对 于 CPU 的 重要 性 ， 那 么 对 于 一 款 CPU 
而 言 ， 绝 对 的 硬件 技术 水 平 不 是 最 重要 的 。 

目前 商业 主流 的 指令 集 架 构 在 不 同 的 领域 已 经 各 自 出 现 了 明显 的 霸主 格局 。 

e x86 架构 统治 着 果 面 PC 与 服务 器 领域 。 

。 ARM 架构 统治 着 移动 手持 领域 ， 同 时 对 桌面 PC 和 服务 器 领域 全 面 进 军 。 

。 ARM 在 艇 入 式 领 域 占据 绝对 优势 。 

因此 作者 之 前 一 直 认 为 ， 只 有 依附 于 x86 与 ARM 阵营 的 商业 公司 ， 才 能够 真正 地 实现 
全 面 的 商用 化 。 相 信 这 也 是 近 几 年 来 国内 CPU 设计 的 英雄 榜 上 涌现 出 来 的 大 多 为 x86 或 者 
ARM 系 的 原因 。 

但 是 ， 国 产 自主 对 我 国 的 国计民生 又 至 关 重 要 ,追求 国产 自主 安全 可 控 是 我 国 在 战略 上 
必须 坚持 的 方向 。 从 这 个 角度 上 来 看 ， 选 择 x86 或 者 ARM 架构 终究 也 有 其 局 限 性 ， 分 别论 
述 如 下 。 

1. x86 架构 

e 由 于 Intel 与 AMD 本 身 是 芯片 公司 而 不 是 知识 产权 (IP) 公司， 因此 x86 架构 是 其 

生命 线 ， 假 设 其 他 得 到 授权 的 芯片 公司 使 用 x86 架构 生产 的 已 厂 对 Intel 和 AMD 3& 
成 了 实质 威胁 时 ，Intel Ej AMD 完全 可 以 拿 起 专利 的 大 棒 停 止 授权 。 

e x86 架构 的 授权 费用 极为 高 昂 ， 远 非 普 通 公司 或 者 组 织 能 够 染指 。 

2. ARM 架构 

。 ARM 架构 的 局 面 会 乐观 很 多 ， 因 为 ARM 架构 虽然 也 是 属于 ARM 公司 且 受 专利 保 

护 的 架构 , 但 是 ARM 公司 的 商业 模式 是 以 开放 共 赢 为 基本 原则 。ARM 公司 是 ARM 
生态 的 主导 者 和 核心 规则 的 制定 者 ， 通 过 基础 架构 授权 、IP 核 授 权 等 方式 获得 经 济 
收益 。 而 生态 系统 中 大 量 的 上 下 游 软 硬件 企业 则 遵循 ARM 统一 制定 的 标准 规范 ， 
对 接 众 多 客户 需求 而 实现 经 济 利益 的 获取 。 

e 国内 基于 ARM 生态 的 CPU 产业 已 有 较 好 基础 ， 华 为 海 思 、 展 讯 、 联 心 和 飞腾 等 众 
多 企业 均 已 累积 多 年 的 ARM 芯片 研发 经 验 ， 在 移动 终端 领域 我 国 芯片 设计 技术 已 
与 国际 主流 水 平 同步 ， 国 外 的 巨头 高 通 、 三 星 和 谷歌 等 也 属于 ARM 生态 系统 阵营 
的 成 员 。 因 此 ， 从 全 球 范 围 来 看 ， 国 内 外 的 区 片 公 司 能 够 在 开放 共 赢 的 生态 下 进行 
公平 的 竞争 。 基 于 上 述 原 因 ,， 国 内 CPU 英雄 榜 上 使 用 ARM 架构 的 CPU 公司 ,其 成 
就 更 加 令 人 可 期 。 

e. 尽管 如 此 ，ARM 架构 毕竟 属于 ARM 公司 ,一 方面 需要 为 ARM 公司 支付 极其 高 昂 
的 授权 费 (一 次 数 千 万 美金 ), 另 一 方面 被 软银 收购 后 ARM 现在 属于 一 家 日 本 公司 。 
因此 ， 从 绝对 的 目 主 可 控 的 角度 来 看 ， 受 制 于 人 那 是 在 所 难免 的 。 

所 谓 “ 成 也 请 何 ， 败 也 萧何 ”， 读 到 此 处 ， 读 者 可 能 要 问 ， 难 道 就 没有 一 种 ISA 具备 如 
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下 几 个 特点 吗 ? 

(OD 它 开源 共享 ,不 属于 某 一 家 商业 公司 私有 ， 因 此 也 就 不 会 有 受制 于 人 与 自主 可 控 的 
隐忧 ， 更 加 不 需要 向 商业 公司 支付 高 昂 的 授权 费 。 

(2) 它 以 开放 共 赢 为 基本 原则 ， 有 一 个 统一 的 非 营利 组 织 作为 主导 者 和 核心 规则 的 制定 
者 ， 任 何 公 司 和 个 人 都 可 以 永久 免费 地 使 用 其 架构 。 

。 生态 系统 中 大 量 的 上 下 游 软 硬件 企业 应 遵循 该 组 织 统一 制定 的 标准 规范 ， 对 接 众 多 

客户 需求 而 实现 经 济 利益 的 获取 。 
e 同样 从 全 球 范 围 来 看 ， 国 内 国外 的 芯片 公司 能 够 在 此 开放 共 赢 的 生态 下 进行 公平 的 
353. 

相信 很 多 人 都 与 作者 一 样 ,在 很 长 的 一 段 时 间 内 ， 非 常 期 待 有 这 样 一 种 ISA 的 出 现 , 业 
界 甚 至 出 现 过 希望 由 国家 主导 指定 一 种 国家 标准 ISA， 从 而 统一 国内 CPU 各 ISA 派系 的 声 
音 。 然 而 ， 国 家 标准 ISA 这 种 被 局 限 在 一 国 范围 内 的 技术 在 当今 全 球 化 的 趋势 下 ， 必 然 是 格 
格 不 入 且 不 可 能 成 功 的 。 于 是 所 有 人 都 认为 不 可 能 出 现 这 样 一 种 ISA T, 作者 作为 一 名 CPU 
设计 的 老兵 ， 也 不 得 不 用 一 首 诗 来 表达 一 下 彼 时 的 心情 :“ 和 死去 元 知 万 事 空 ， 但 悲 不 见 九州 
He -ENfidbxETrnERH. KREDAS” 

然而 在 2016 年 ， 有 一 位 叫 作 RISC-V 的 新 生 突 然 自 带 光 环 登 场 。 它 完全 符合 上 述 提 到 
的 两 个 条 件 ， 属 于 全 人 类 的 免费 开放 架构 ， 无 任何 专利 的 梭 梅 ， 众 多 国际 知名 大 公司 均 加 入 
其 中 , 将 以 开放 共 赢 的 生态 下 进行 公平 的 竞争 。 作 者 隐隐 感到 ， 如 果 这 个 ISA 真能 够 发 展 起 
来 ， 这 似乎 可 能 是 国产 CPU 崛起 的 真正 机 会 。 刚 才 我 们 提 到 曾 有 人 建议 制定 一 种 国家 标准 
的 指令 集 架 构 ， 而 当 RISC-V 诞生 不 久 ， 我 们 的 邻 国 印度 迅速 地 采用 了 RISC-V 作为 其 国家 
标准 的 指令 集 ， 推 荐 其 国内 的 大 学 和 研究 机 构 均 采用 RISC-V 架构 ， 并 且 已 经 制定 规划 且 投 
入 专项 资金 用 于 开发 几 个 不 同系 列 的 RISC-V 处 理 器 。 

有 道 是 “ 山 重 水 复 疑 无 路 ， 柳 上 暗 花 明 叉 一 村 ”有 关 新 生 的 RISC-V 架构 ， 我 们 将 在 第 
1.5 节 中 详细 介绍 。 


1.3 人 生 已 是 如 此 艰难 , 你 又 何必 拆 穿 一 -CPU 从 业者 的 无 


对 于 每 一 个 行业 的 普通 从 业者 而 言 ， 痢 希望 所 在 行业 能 够 医 描 发 展 、 欣 欣 同 荣 ， 能 够 有 
大 量 的 商业 公司 参与 并 产生 大 量 工 作 疯 位 的 需求 。 倘 使 所 在 的 行业 或 是 日 募 西 山 ， 或 是 走 同 
FRARI MEK, 自然 也 就 无 法 诞生 大 量 的 工作 需求 , 那 普通 的 从 业者 们 可 能 就 只 有 “ 寻 
寻 员 疯 ， 冷 冷清 清 ， 姜 凄惨 惨 威 威 "”， RE TIWARI, EKBER” To 

处 理 器 设计 便 是 一 个 典型 的 例子 。 虽 然 处 理 器 设计 是 一 门 开放 的 学 科 ， 其 所 需 的 技术 均 
已 成 熟 ， 很 多 的 工程 师 与 从 业 人 员 都 已 经 掌握 ， 也 具备 开发 的 处 理 器 的 能 力 。 但 是 : 
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e 由 于 处 理 器 架构 长 期 以 来 主要 由 以 Intel (x86 架构 ) 与 ARM (ARM 架构 ) 为 代表 
的 商业 巨头 公司 所 掌控 ， 及 其 软件 生态 环境 入 生出 的 寡头 排他 效应 ， 成 为 了 普通 公 
司 与 个 人 无 法 逾越 的 天 息 。 

e 由 于 寡头 的 排他 效应 ,众多 的 处 理 器 体系 结构 走 同 消亡 ， 国 产 的 商用 CPU 也 无 法 足 
够 成 功 ， 从 而 造成 了 CPU 设计 这 项 工作 变 成 了 极 少数 商业 公司 的 “堂前 燕 "”， 普通 
平民 “只 可 远 观 ， 而 不 可 变 玩 下 ”国内 长 期 没有 形成 有 足够 影响 力 的 相关 产业 与 商 
业 公司 。 

综 上 ， 作 者 作为 曾经 在 国际 一 流 公司 任职 的 CPU 高 级 设计 工程 师 ， 竟 一 度 在 换 工 作 时 
面临 择业 无 门 的 窘境 ， 更 扼腕 叹息 众多 同仁 被 迫 转 行 的 情形 。 正 可 谓 “ 曲 高 者 和 襄 ， 大 音 者 
稀 声 ”，CPU 设计 从 业者 颇 无 奈 也 。 读 至 此 ， 被 迫 转 行 的 同仁 们 可 能 已 经 老 泪 纵横 :“ 人 生 
已 是 如 此 的 艰难 ， 你 又 何必 拆 穿 啊 ”。 

好 消息 是 最 近 几 年 来 国内 CPU 产业 的 情形 终于 发 生 了 的 改观 ， 由 于 中 国 的 巨大 市 场 与 
产业 支持 ， 国 内 涌现 出 了 如 上 节 中 我 们 提 到 的 兆 芯 、 飞 腾 、 华 为 、 展 讯 、 海 光 和 华 芯 通 等 从 
事 CPU 设计 的 公司 ， 且 随 着 本 书 介 绍 的 RISC-V 架构 之 诞生 ， 都 将 催生 更 多 的 市 场 需求 。 


1.4 ”无敌 是 多 么 京 寞 一 一 ARM 统治 着 的 世界 


ARM (Advanced RISC Machines) 是 一 家 诞生 于 英国 的 处 理 器 设计 与 软件 公司 ， 总 部 位 
于 英国 的 剑桥 ， 其 主要 业务 是 设计 ARM 架构 的 处 理 器 ， 同 时 提供 与 ARM 处 理 器 相关 的 配 
套 软件 ， 各 种 SoC 系统 全、 物理 PP、GPU、 视 频 和 显示 等 产品 。 

虽然 在 普通 人 眼中 ，ARM 公司 的 知名 度 远 没有 Intel 公司 的 辨识 度 高 ， 甚 至 不 如 华为 、 
高 通 、 苹 果 、 联 发 科 和 三 星 等 这 些 厂 商 那 般 耳熟能详 。 但 是 ，ARM 架构 处 理 器 却 以 “ 润 物 
细 无 声 ” 的 方式 渗透 到 我 们 生活 中 的 每 个 角落 。 从 我 们 每 天 日 常 使 用 的 电视 、 手 机 、 平 板 电 
脑 以 及 手 环 、 手 表 等 电子 产品 ， 到 不 起 眼 的 遥控 器 、 智 能 灯 和 充电 器 等 我 们 想到 和 想不到 的 
方方面面 ， 均 有 ARM 架构 处 理 器 的 身影 。 在 白色 家 电 、 工 业 控 制 与 汽车 电子 领域 ，ARM 
架构 处 理 器 更 是 无 处 不 在 ; 乃至 我 们 熟知 桌面 PC、 服 务 器 和 超级 计算 机 领域 , ARM 架构 也 
在 朝 其 渗透 。 可 以 说 ，ARM 架构 处 理 器 统治 着 这 些 领 域 ， 支 撑 着 我 们 这 个 世界 的 运行 。 


1.4.1 独 乐 乐 与 众 乐 乐 一 一 ARM 公司 的 鳃 利 模式 


ARM 公司 虽然 设计 开发 基于 ARM 架构 的 处 理 器 核 ， 但 是 商业 模式 并 不 是 直接 生产 处 
理 器 芯片 ， 而 是 作为 知识 产权 (Intellectual Property, IP) 供应 商 ， 转 让 授权 许可 给 其 合作 伙 
伴 。 目 前 ， 全 世界 有 几 十 家 大 的 半导体 公司 都 使 用 ARM 公司 的 授权 ， 从 ARM 公司 购买 其 
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设计 的 ARM 处 理 器 核 ， 根 据 各 自 不 同 的 应 用 领域 ， 加 入 适当 的 外 围 电路 ， 从 而 形成 自己 的 
ARM 处 理 器 芯片 进入 市 场 。 
至 此 , 我 们 提 到 了 若干 名 词 “ARM H” “ARM 架构 处 理 器 ”或 “ARM 处 理 器 ”“ARM 
处 理 器 芯片 ”“ 攻 片 "。 为 了 能 够 阐述 清楚 其 彼此 的 关系 ， 并 理解 ARM 公司 的 商业 模式 ， 下 
面 通过 一 个 形象 的 比喻 加 以 阐述 。 
假设 将 “生产 芯片 ”比喻 为 “制造 一 辆 汽车 ”， 我 们 知道 在 市 场 上 有 几 十 家 品牌 汽车 生 
产 商 ， 璧 如 “大 众 ”“ 丰 田 ”“ 本 田 ” 等 。 那 么 芯片 领域 也 有 众多 的 世 片 生产 商 ， 璧 如 “高 通 ” 
“联发科 ”“ 三 星 ”“ 德 州 仪器 ”等 。 有 的 芯片 是 以 处 理 器 的 功能 为 主 ， 我 们 称 为 “处 理 器 芯 
片 ”， 有 的 芯片 中 的 处 理 器 只 是 辅助 的 功能 ， 我 们 称 之 为 “普通 芯片 ”或 “ 攻 片 ”。 
就 像 每 一 辆 汽车 都 需要 一 台 发 动机 , 汽车 生产 商 需要 向 其 他 的 发 动机 生产 商 采 购 发 动机 
一 样 。 每 一 款 芯 片 都 需要 一 个 或 者 多 个 处 理 器 ， 因 此 “高 通 ”“ 联 发 科 ”“ 三 星 ” 和 “德州 仪 
器 ”等 芯片 生产 商 需 要 采购 处 理 器 ， 于 是 他 们 可 以 从 ARM 公司 采购 处 理 器 。 
。 所 谓 “ARM 架构 ”就 好 像 是 发 动机 的 设计 图 样 一 样 ， 是 由 ARM 公司 发 明 并 专利 保 
护 的 “处 理 器 架构 ”ARM 公司 基于 此 架构 设计 的 处 理 器 便 是 “ARM 架构 处 理 器 ” 
或 “ARM 处 理 器 ”。 由 于 ARM 主要 以 正 的 形式 授权 其 处 理 器 ， 因 此 和 常 称 为 “ARM 
MEER gà IP". 

。 通过 直接 授权 “ARM 处 理 器 IP" £8 RBS HEP E OEE), xE ARM 
Ax í] If] 3E ESCRIBE 

芯片 公司 每 设计 一 款 芯 片 ， 如 果 购 买 了 ARM 公司 提供 的 “ARM 处 理 器 IP", WAAR] 
需要 支付 一 笔 前 期 授权 费 (Upfront License Fee)， 之 后 ， 如 果 该 芯片 被 大 规模 生产 销售 ， 则 
每 卖 出 一 片 芯 片 均 需 要 按 其 售 价 向 ARM 公司 支付 一 定 比例 《譬如 售 价 的 1% 一 2%) 的 版 税 
( Royalty Fee). 

由 于 ARM H hd fF 26 X BS TR OR. ER T TERRES, ERAR 
入 式 领 域 的 芯片 厂商 ， 购 买 ARM 处 理 器 IP 几乎 成 为 这 些 厂商 的 首选 。 

就 像 有 些 有 实力 的 汽车 生产 商 可 以 自己 设计 制造 发 动机 一 样 。 有 实力 的 芯片 公司 也 想 自 
己 设 计 处 理 器 ， 因 此 有 3 个 选择 。 

e 第 1 个 选择 : 自己 发 明 一 种 处 理 器 架构 。 

e 第 2 个 选择 : 购买 其 他 商业 公司 的 “ 非 ARM 架构 ”处 理 器 IP. 

。 第 3 个 选择 : 购买 ARM 公司 的 “ARM 架构 授权 ”而 不 是 直接 购买 “ARM 处 理 器 

IP”， 上 自己 定制 开发 基于 ARM 架构 的 处 理 器 。 

在 前 面 的 章节 ， 我 们 曾经 阐述 了 处 理 器 架构 及 其 衍生 出 的 软件 生态 环境 的 重要 性 ， 探 讨 
了 为 什么 “ 非 ARM 架构 ”无 法 取得 如 ARM 般 巨 大 的 成 功 ， 因 此 上 述 “第 1 个 选择 ”和 “第 
2 个 选择 ”在 ARM 架构 占 主导 (譬如 移动 手持 设备 ) 的 领域 具有 极 大 的 风险 。 那 么 “第 3 
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个 选择 ” 便 成 为 了 这 些 有 实力 的 心 片 公司 的 几乎 唯一 选择 。 

。 就 像 汽 车 公司 可 以 购买 发 动机 公司 的 图 样 ， 然 后 按照 自己 的 产品 需求 深度 定制 其 发 
动机 一 样 。 蕊 片 公司 也 可 以 通过 购买 ARM 公司 的 “ARM 架构 授权 ”， 按 照 目 己 的 
产品 需求 深度 定制 其 目 己 的 处 理 嚣 。 

e 转让 “ARM 架构 授权 ”给 其 他 的 芯片 生产 商 〈 合 作 伙伴 )， 这 便 是 ARM 公司 的 另 
Jb — Rb RRR. 

使 用 这 种 自主 研发 处 理 器 的 芯片 在 大 规模 生产 销售 后 无 需 向 ARM ARZA CIT RR, 

从 而 达到 降低 产品 成 本 和 提高 产品 差异 性 的 效果 。 

只 有 实力 最 为 雄厚 的 芯片 公司 才 具 备 购买 “ARM 架构 授权 ”的 能 力 。 首 先 ， 因 为 ARM 
架构 授权 价格 极其 昂贵 (高 达 干 万 美元 量 级 )， 远 远 高 于 直接 购买 “ARM 处 理 器 IP" Bri HJ 
前 期 授权 费 ; 其 次 , 深度 定制 其 自 研 处 理 器 需要 解决 极 高 的 技术 难度 与 投入 高 昂 的 研发 成 本 。 
目前 有 能 力 坚 持 做 到 这 一 点 的 也 仅 有 “苹果 ”“ 高通 ”“ 华 为 ”等 巨头 。 

综 上 可 以 看 出 ,“ARM 架构 处 理 器 ”可 以 分 为 两 种 。 

。 由 ARM 公司 开发 并 出 售 的 耻 ， 也 俗称 为 公 版 ARM。 

e 由 芯片 公司 基于 ARM 架构 授权 上 自主 开发 的 和 有 内 核 ， 也 俗称 为 定制 目 研 ARM. 

相对 应 的 ，ARM 公司 的 主要 番 利 模式 也 可 以 分 为 两 种 。 

e 授权 “ARM 处 理 器 卫 ” 给 其 他 的 芯片 生产 商 〈 合 作 伙伴 )， 收 取 对 应 的 前 期 授权 费 

(Upfront License Fee)， 以 及 量 产后 的 版 税 。 

。 转让 “ARM 架构 授权 ”给 其 他 的 蕊 片 生产 商 (合作 伙伴 )， 收 取 对 应 的 架构 授权 费 。 

ARM 公司 的 强大 之 处 便 在 于 其 与 众多 合作 伙伴 一 起 构建 了 强大 的 ARM 阵营 ， 如 图 1-10 
所 示 。 全 世界 目前 几乎 大 多 数 主流 芯片 公司 都 直接 或 者 间接 地 在 使 用 ARM 架构 处 理 器 。 
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图 1-10 ARM 公司 人 台 作 伙伴 图 谱 
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ARM 公司 目 2004 年 推出 ARMv7 内 核 染 构 时 ， 便 握 弃 了 以 往 “ARM+ 数 字 ” 这 种 处 理 
器 命名 方法 (之 前 的 处 理 器 统称 经 典 处 理 器 系列 )， 启 用 Cortex 来 命名 ， 并 将 Cortex 系列 细 
分 为 三 天 类 ， 如 图 1-11 所 JR o ARM® Cortex? Processors across the Embedded Market 


e  Cortex-A: 而 同性 能 密集 型 系统 的 ra B p 


pegea A pingerea 


应 用 处 理 器 核 。 
e Cortex-R: 面 问 实时 应 用 的 高 性 
能 核 。 
。 Cortex-M: 面 问 各 类 磐 入 式 应 用 
的 微 控制 器 核 。 
其 中 ，Cortex-A 系列 与 Cortex-M 系 
列 的 成 功 尤 其 引 人 瞩 目 。 接 下 来 的 章节 将 
对 Cortex-M 系列 与 Cortex-A 系列 的 成 功 分 别 加 以 详细 论述 。 


1.4.2 ”小 个 子 有 大 力量 一 一 无 处 不 在 的 Cortex-M 系列 


Cortex-M 是 一 组 用 于 低 功 耗 微 控制 器 领域 的 32 位 RISC 处 理 器 系列 ， 包 括 Cortex-M0、 
Cortex-M0+ 、 Cortex-M1 、 Cortex-M3 、 Cortex-M4(F) ~ Cortex-M7(F) 、 Cortex-M23 和 
Cortex-M33(F)。 如 果 Cortex-M4 / M7 / M33 处 理 器 包含 了 硬件 浮 点 运算 单元 (FPU)， 也 称 为 
Cortex-M4F/M7F/M33F。 表 1-3 列 出 了 Cortex-M 系列 各 处 理 器 的 发 布 时 间 和 特点 。 





图 1-11 Cortex-A/R/M 系列 


表 1-3 ARM Cortex-M 系列 各 处 理 器 发 布 时 间 和 特点 
s s 描述 
Cortex-M3 面向 标准 嵌入 式 市 场 的 高 性 能 低 成 本 的 ARM 处 理 器 
Cortex-MI 3 级 专门 面向 FPGA 中 设计 实现 的 ARM 处 理 器 


Cortex-MO 面积 最 小 和 能 耗 极 低 的 ARM 处 理 器 


ea 在 M3 基础 上 增加 单 精度 浮 点 .DSP 功能 以 满足 数字 信号 控制 市 场 的 ARM. 处 
Cortex-M4 2010 3 级 


Cortex-MO+ | mE | 在 MO 基础 上 进一步 降低 功 耗 的 ARM 处 理 器 

超标 量 设计 ， 配 备 分 支 预测 单元 ， 不 仅 支 持 单 精 度 浮 点 ， 还 增加 了 硬件 双 精 度 
Cortex-M7 2014 6 级 

浮 点 能 力 ， 进 一 步 提升 计算 性 能 和 DSP 处 理 能 力 ， 主 要 面向 高 端 幅 入 式 市 场 

| 可 以 简单 理解 为 在 Cortex-M0+ 的 基础 上 增加 了 硬件 整数 除法 器 与 安全 特性 

Cortex-M23 2016 2 级 

(TrustZone Security ) 
Cortex-M33 可 以 简单 理解 为 在 Cortex-MA 的 基础 上 增加 了 安全 特性 〈TrustZone Security) 


Cortex-M 的 应 用 场景 虽然 不 像 Cortex-A 系列 那样 光芒 四 射 ， 但 是 其 应 用 的 舱 入 式 领 域 
需求 量 巨大 。 有 数据 显示 ，2018 年 物 联 网 设备 的 数量 将 会 超过 移动 设备 ， 到 了 2021 年 ， 我 
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们 将 会 拥有 18 亿 台 PC. 86 亿 台 移动 设备 和 157 亿 台 物 联 网 设备 。 璧 如 有 一 些 物 联网 设备 
可 能 需要 在 几 年 的 时 间 里 运转 ， 而 且 仅 依靠 自身 所 带 的 电池 ，Cortex-M0 由 于 其 体积 非常 之 
小 而 且 功 耗 极 低 ， 就 非常 适合 这 类 产品 ， 比 如 传感器 。 而 Cortex-M3 是 Cortex 产品 家 族 中 最 
为 广泛 使 用 的 一 葡 心 片 ， 它 本 身 的 体积 也 非常 小 ， 可 以 广泛 应 用 于 各 种 各 样 坐 入 智能 设备 ， 
比如 智能 路 灯 、 智 能 家 居 温 控 器 和 智能 灯泡 等 。2009 年 Cortex-MO 这 款 超 低 功 耗 的 32 位 处 
理 器 问世 后 ， 打 破 了 一 系列 的 授权 记录 ， 成 了 各 制造 商 竞相 争夺 的 香 狩 链 ， 仅 9 HER, 
就 有 15 家 厂商 与 ARM 签约。 至今 全 球 已 有 超过 60 家 公司 获得 了 ARM Cortex-M 的 授权 ， 
中 国 大 陆 厂 商 也 有 近 十 家 。Cortex-M3 与 Cortex-M0 的 合计 出 货 量 已 经 超过 200 亿 片 ， 其 中 
有 一 半 的 出 货 是 在 过 去 几 年 完成 的 ， 据 称 每 30 分 钟 的 出 货 量 就 可 以 达到 25 万 片 。 

Cortex-M 另 一 个 取得 巨大 成 功 的 领域 便 是 微 控 制 器 (Microcontroller Unit, MCU). pë 
着 越 来 越 多 的 电子 厂商 不 断 为 物 联网 AoT) 推出 新 产品 ， 全 球 微 控 制 器 (MCU) 市 场 出 货 
量 出 现 巨大 成 长 动能 ， 且 呈现 出 量 价 齐 升 的 情况 。 据 市 场 调研 机 构 预 测 ，2016 一 2020 年 全 
球 微 控制 器 (MCU) 出 货 量 与 销售 额 将 持续 创新 高 。 

在 ARM 推出 Cortex-M 之 前 ， 全 球 主要 的 几 个 MCU 必 片 公司 大 多 采用 8 位 、16 位 内 
核 或 者 其 自 有 的 32 位 架构 的 处 理 器 。ARM 推出 Cortex-M 处 理 器 之 后 ， 迅 速 受 到 市 场 青睐 ， 
一 些 主流 MCU 供应 商 开 始 选择 这 款 内 核 生 产 MCU. 

e 2007 年 6 月 ，ST 推出 基于 ARM Cortex-M3 处 理 器 核 的 STM32 F1 系列 MCU 使 之 

| AGE. 

e 2009 年 3 月 ， 恩 智 浦 半导体 NXP 率先 推出 了 第 一 蒜 基 于 ARM Cortex-MO 处 理 器 的 

LPC1100 系列 MCU. 

e 2010 年 8 月 ， 飞 思 卡 尔 半导体 Freescale (2015 年 被 NXP 并 购 ) 率先 推出 了 第 一 款 

基于 ARM Cortex-M4 处 理 器 的 Kinetis K 系列 MCU. 

e 2012 年 11 月 ， 恩 智 浦 半导体 NXP 继续 率先 推出 了 第 一 蒜 基 于 ARM Cortex-M0+ 处 

理 器 的 LPC800 系列 MCU. 
e 2014 年 9 月 ， 意 法 半导体 ST 率先 推出 了 第 一 款 基于 ARM Cortex-M7 处 理 器 的 
STM32 F7 系列 MCU. 

各 家 供应 商 采 用 Cortex-M 处 理 器 核 加 之 以 自己 特别 的 开发 ,在 市 场 中 提供 差异 化 的 MCU 
产品 ， 有 些 产品 专注 最 佳能 效 、 最 高 性 能 ， 而 有 些 产 品 则 专门 应 用 于 某 些 细 分 市 场 。 

人 至今， 主要 的 MCU 厂商 中 几乎 都 有 使 用 ARM 的 Cortex-M 内 核 的 产品 线 。 可 以 肯定 
地 说 ，Cortex-M 之 于 32 位 MCU 就 如 同 8051 (受到 众多 供应 商 支 持 的 工业 标准 内 核 ) 之 于 
8 位 MCU。 未 来 Cortex-M 系列 的 MCU 产品 替代 传统 的 8051 或 其 他 专用 架构 是 大 势 所 趋 。 
甚至 有 声音 表示 :“ 未 来 ，MCU 产品 将 不 再 按 8 位 ，16 位 和 32 位 来 分 ， 而 是 会 按照 MO E 
M3 核 以 及 M4 核 等 ARM 内 核 的 种 类 来 分 。” 作 者 不 得 不 蔡 非 ARM 架构 的 商业 处 理 器 厂商 
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IEK: “EEM, dup AE." 


14.3 ”移动 王者 一 Cortex-A 系列 在 手持 设备 领域 的 巨大 成 功 


Cortex-A 是 一 组 用 于 高 性 能 低 功 耗 应 用 处 理 器 领域 的 32 位 和 64 位 RISC 处 理 器 系列 。 
32 位 架构 的 处 理 器 包括 Cortex-A5 、Cortex-A7、Cortex-A8 、Cortex-A9 、Cortex-A12、 
Cortex-A15、Cortex-A17 和 Cortex-A32. 64 位 架构 的 包括 ARM Cortex-A35. ARM Cortex-A53、 
ARM Cortex-A57. ARM Cortex-A72 和 ARM Cortex-A73. Cortex-A. Cortex-M 和 Cortex-R 
架构 的 最 大 区 别 是 包含 了 存储 器 管理 单元 (Memory Management Unit，MMU )， 因 此 可 以 支 
持 操作 系统 的 运行 。 

ARM 在 2005 年 问 市 场 推 出 Cortex-A8 处 理 器 ， 是 第 一 款 支 持 ARMV7-A 架构 的 处 理 器 。 
在 当时 的 主流 工艺 下 ，Cortex-A8 处 理 器 的 速率 可 以 在 600M 一 1GHz 的 范围 调节 ， 能 够 满足 
那些 需要 工作 在 300mW 以 下 的 功 耗 优化 的 移动 设备 的 要 求 ， 以 及 满足 那些 需要 2000 
Dhrystone MIPS 的 性 能 优化 的 消费 类 应 用 的 要 求 。 当 Cortex-A8 在 2008 年 投入 批量 生产 时 ， 
高 市 宽 无 线 连接 GG) 已 经 问世 ， 大 屏幕 也 用 于 移动 设备 ，Cortex-A8 芯片 的 推出 正好 赶 上 
了 智能 手机 大 发 展 的 滥 筋 。 

推出 Cortex-A8 之 后 不 入，ARM XIE T EIF ARMV7-A 架构 的 多 核 处 理 器 
Cortex-A9。Cortex-A9 利用 硬件 模块 来 管理 CPU 集群 中 1 一 4 个 核 的 高 速 缓存 一 致 性 ， 加 入 
了 一 个 外 部 二 级 高 速 缓存 。 在 2011 年 底 和 2012 年 初 ， 当 移动 SoC 设计 人 员 可 以 采用 多 个 
核 之 后 ， 性 能 得 到 进一步 提升 。 旗 舰 级 高 端 智 能 手机 迅速 切换 到 4 核 Cortex-A9。 除 了 开启 
了 多 核 性 能 大 门 之 外 ， 与 Cortex-A8 相 比 ， 每 个 Cortex-A9 处 理 器 的 单 时 钟 周期 指令 吞吐 量 
提高 了 大 约 2$5%。 这 个 性 能 的 提升 是 在 保持 相似 功 耗 和 芯片 面积 的 前 提 下 ,通过 缩短 流水 线 
并 乱 序 执行 ， 以 及 在 流水 线 早期 阶段 集成 NEON SIMD 和 浮 点 功能 而 实现 的 。 

如 果 说 Cortex-A8 牛刀 小 试 让 ARM 初 尝 甜头 ， 那 么 Cortex-A9 则 众生 了 智能 手机 的 井 
HEHH, Cortex-A9 几乎 成 了 当时 智能 手机 的 标 配 ， 大 量 的 智能 手机 采用 了 该 内 核 ， ARM 为 此 
tT ARMAK. HIE, ARM 便 开 始 了 它 开 挂 的 “下 饺子” 模式， 以 平均 每 年 一 款 或 多 款 
的 速度 疯狂 推出 各 于 不 同 的 Cortex-A 处 理 器 ， 迅 速 拉 开 与 竞争 对 手 的 差距 。 具 体 ARM 
Cortex-A 系列 各 处 理 器 的 发 布 时 间 和 特点 ， 见 表 1-4。 


表 1-4 ARM Cortex-A 系列 各 处 理 器 发 布 时 间 和 特点 
型 ”号 | 发 布 年 份 | 位 数 | 架构 | 流水 线 深度 | 指令 发 射 关 型 | RUBRI | Mu 
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续 表 
S s 乱 序 执行 | Hi 
Cortex-A53 可 以 理解 为 A7 的 64 位 版 
Cortex-A57 可 以 理解 为 A15 的 64 位 版 
Cortex-A12 可 以 理解 为 A9 的 性 能 提升 优化 版 本 
Cortex-A17 可 以 理解 为 Al2 的 进一步 性 能 提升 ， 优 化 版 本 
Cortex-A72 可 以 理解 为 A57 的 性 能 提升 优化 版 本 
Cotex-A73 | 2015 | 64 | ARMv8-A | 可 以 理解 为 A72 的 性 能 进一步 提升 优化 版 本 
Cortex-A32 可 以 理解 为 A35 的 32 位 版 本 
Cortex-A55 可 以 理解 为 A53 的 功 耗 进一步 提升 优化 版 本 
Cortex-A75 可 以 理解 为 A73 的 性 能 进一步 提升 优化 版 本 


ARM 推出 Cortex-A 系列 各 款 处 理 器 的 速度 之 快 、 之 多 ， 显 示 了 其 研发 机 器 的 超 强生 产 
力 ， 由 于 其 推出 的 处 理 器 型 号 太 多 、 太 快 ， 阿 拉 伯 数字 都 不 够 用 了 ， 如 表 1-4 所 示 ， 其 型 号 
的 编号 规则 逐渐 令 作 者 都 傻 傻 分 不 清 了 。 同 时 ， 由 于 其 推出 的 处 理 器 型 号 太 多 、 太 快 ， 乃 至 
于 令 众 多 授权 ARMv7/8-A 架构 进行 自 研 处 理 器 的 巨头 都 疲于奔命 。 在 Cortex-A8/A9 时 代 ， 
多 家 有 实力 的 巨头 均 选 择 授权 ARMV7/8-A 架构 进行 自 研 处 理 器 以 差异 化 其 产品 并 降低 成 
本 。 这 些 巨头 包括 高 通 、 苹 果 、Marvell、 博 通 、 三 星 、TI 以 及 LG 等 。 作 者 便 曾 经 在 其 中 
的 一 家 巨头 供职 担任 CPU 高 级 设计 工程 师 ， 开 发 其 自 研 的 Cortex-A 系列 高 性 能 处 理 器 。 如 
前 所 述 , 研发 一 蒜 高 性 能 的 应 用 处 理 器 需要 解决 挑战 极 高 的 技术 难题 以 及 投入 数 年 时 间 ， 而 
当 ARM 以 年 均一 球 新 品 之 势 席卷 市 场 之 时 ,使 得 自 研 处 理 器 没有 能 够 来 得 及 推出 便 已 过 时 。 
众 巨 头 们 纷纷 弃 甲 丢 套 ， 相 继 有 TI、 博 通 、Marvell 和 LG 等 巨头 放弃 了 自 研 处 理 器 业务 。 
乃至 自 研 处 理 器 做 的 最 为 成 功 的 高 通 〈 以 其 Snapdragon 系列 应 用 人 处理 器 风靡 市 场 ) 也 在 其 
Hiki SoC 产品 中 放弃 了 自 研 处 理 器 转 而 采购 ARM 的 Cortex-A 系列 处 理 器 , 仅 在 高 端 SoC 
中 保留 了 自 研 的 处 理 器 。 值 得 一 提 的 是 ， 由 于 中 国 的 巨大 市 场 与 产业 支持 ,在 巨头 们 放弃 自 
研 处 理 器 的 趋势 下 ， 中 国 的 手机 巨头 华为 与 展讯 道 势 而 上 ， 开 始 授权 ARMv8-A 架构 进行 自 
研 处 理 器 的 研发 ， 并 取得 了 令 人 欣喜 的 成 果 。 

Cortex-A 系列 的 巨大 成 功 彻底 地 葛 定 了 ARM 在 移动 领域 的 统治 地 位 。 由 于 Cortex-A 系 
列 的 先 机 与 成 功 ，ARM 架构 在 移动 领域 构筑 了 城 宽 池 阔 的 软件 生态 环境 。 至 今 ，ARM 架构 
己 经 应 用 到 全 球 85% 的 智能 移动 设备 中 ， 其 中 有 超过 95% 的 智能 手机 都 基于 ARM 的 设计 ， 
基本 上 使 得 其 他 架构 的 处 理 器 失去 了 进入 该 领域 的 可 能 性 。ARM 携 Cortex-A 系列 移动 领域 
一 统 江 山 ， 就 如 坦 格 利安 人 驾 着 喷 火 的 巨头 征服 维 斯 特 洛 大 陆 般 如 入 无 人 之 境 。ARM 除了 
一 步 步 提 升 Cortex 架构 性 能 之 余 ， 也 找到 了 很 多 “志同道合 ”的 伙伴 ， 比 如 高 通 、 众 歌 和 
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微软 等 ， 并 与 合作 伙伴 们 形成 了 强大 的 生态 联盟 。 携 此 余 威 ， 传 统 x86 架构 的 PC 与 服务 器 
领域 就 成 为 了 ARM 的 下 一 步 发 展 目标 。 有 道 是 “ 驱 巨 兽 易 定 移动 地 ，Cortex-A 剑 指 服务 区 ” 
预知 后 事 如 何 ， 且 听 下 节 分 解 。 


1.4.4 ”进击 的 巨人 一 一 ARM 进军 PC 与 服务 器 领域 的 雄心 


PC 与 服务 器 市 场 是 一 个 超 千 亿 规 模 的 大 和 蛋 糙 ， 而 这 个 市 场 长 时 间 由 另外 一 个 巨头 Intel 
把 持 ， 同 为 x86 阵营 的 AMD 常年 屈居 老 二 ， DFAA REEE. Inte 在 此 领域 的 巨大 
成 功 ， 是 其 丰厚 盘 利 的 主要 来 源 。 

上 一 节 提 到 ARM 剑 指 PC 与 服务 器 领域 ， 谷 歌 ChromeBook 就 是 ARM 挥 师 PC 市 场 的 
先行 军 ， 在 (海外 的 ) 入 门 级 市 场 受 到 了 广泛 好 评 ，ARM 处 理 器 可 以 帮助 此 类 设备 变 得 更 
轻 、 更 省 电 。 微 软 对 ARM 的 支持 同样 给 力 ，2016 年 12 月 举行 的 WinHEC 2016 大 会 上 ， 微 
软 与 高 通 宣 布 将 采用 下 一 代 驴 龙 处 理 器 (基于 ARM 架构 ) 的 移动 计算 终端 上 支持 Windows 
10 系统 ， 微 软 演示 了 搭载 弱 龙 820 处 理 器 的 笔记 本 运行 Windows 10, 1È 820 在 4GB 存储 
器 支撑 下 (性 能 可 以 和 Intel i3 媲美 )， 一 台 Windows 10 企业 版 系统 笔记 本 能 够 流畅 地 运行 
Edge、 外 接 绘图 板 、 观 看 高 清 视 频 、 使 用 PS 定 同 滤 镜 等 ， 同 时 文 持 多 任务 后 台 。 

2017 年 , 高 通 宣 布 正在 对 其 自 研 驳 龙 835 进行 优化 , 将 这 于 处 理 器 扩展 到 运行 Windows 
10 的 移动 PC 24rf, midi dE 835 的 Windows 10 移动 PC 计划 在 2017 年 第 四 季度 推出 。 
除 此 之 外 , 在 数据 中 心 领 域 ， 高 通 也 与 微软 达成 了 合作 ， 未 来 运行 Windows Server MIRS 4S 
也 可 以 搭载 高 通 10nm Centriq 处 理 器 ， 这 也 是 业内 首 款 10nm 服务 器 处 理 器 。 微 软 还 宣布 将 
在 未 来 的 Windows 10 RedStone 3 当中 正式 提供 ARM 设备 对 完整 版 Windows 10 的 兼容 文 持 ， 
这 意味 着 基于 ARM 处 理 器 的 设备 可 以 运行 x86 程序 ， 跨 平台 融合 正式 到 来 。 

至 此 , 我 们 已 经 介绍 ARM 公司 及 其 ARM 架构 的 强大 之 处 ， 了 解 了 Cortex-M 处 理 器 在 
葡 入 式 领域 内 的 巨大 成 功 ，Cortex-A 处 理 器 在 移动 领域 内 的 王者 之 位 ， 甚 至 于 在 PC 与 服务 
器 领域 内 的 雄心 。 


1.5 东边 日 出 西边 雨 ， 道 是 无 晴 却 有 上 晴 一 一 RISC-V 登场 


RISC-V 架构 主要 由 美国 加 州 大 学 伯克利 分 校 〈 简 称 伯克利 ) 的 Krste Asanovic 教授 、 
Andrew Waterman 和 Yunsup Lee 等 开发 人 员 于 2010 年 发 明 ， 并 且 得 到 了 计算 机 体系 结构 领 
域 的 泰斗 David Patterson 的 大 力 支 持 。 伯 克利 的 开发 人 员 之 所 以 发 明 一 套 新 的 指令 集 架 构 ， 
而 不 是 使 用 成 熟 的 x86 或 者 ARM 架构 ， 是 因为 这 些 架 构 经 过 多 年 的 发 展 变 得 极为 复杂 和 元 
繁 ,并 且 存 在 着 高 昂 的 专利 和 架构 授权 问题 。 并 且 修改 ARM 处 理 器 的 RTL 代码 是 不 被 文 持 
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的 ， 而 x86 处 理 器 的 源 代码 根本 不 可 能 获得 到 。 其 他 的 开源 架构 ( 壁 如 SPARC, OpenRISC) 
均 有 着 或 多 或 少 的 问题 (第 2 章 将 详细 论述 )。 有 感 于 计算 机 体系 结构 和 指令 集 架 构 已 经 过 
数 十 年 的 发 展 非常 成 熟 ， 但 是 像 伯 克利 这 样 的 研究 机 构 葛 然 “ 无 米 下 锅 ”( 选 择 不 出 合适 的 
指令 集 架 构 供 其 使 用 )。 伯 克利 的 教授 与 研发 人 员 决 定 发 明 一 种 全 新 的 、 简 单 且 开放 免费 的 
指令 集 架构 ， 于 是 RISC-V 架构 诞生 了 。 

AK RISC-V 的 诞生 , 有 兴趣 的 读者 可 以 自行 到 网 络 中 查阅 文章 《伯克利 希望 将 RISC-V 
开源 架构 推 癌 主流 》。 

RISC-V 英文 读 作 “risk-five”)， 是 一 种 全 新 的 指令 集 架 构 。“V” 包 含 两 层 意 思 ， 一 是 
这 是 Berkeley 从 RISC 1 开始 设计 的 第 五 代 指 令 集 架 构 ; 二 是 它 代 表 了 变化 (Variation〉 #1 
量 (Vectors )。 

经 过 几 年 的 开发 ， 伯 克利 为 RISC-V 架构 开发 除了 完整 的 软件 工具 链 以 及 厦 干 开源 的 处 
理 器 实例 ， 得 到 越 来 越 多 的 人 的 关注 。2016 年 ，RISC-V 基金 会 (Foundation〉 正式 成 立 开 

台 运作 。RISC-V 基金 会 是 一 个 非 营 利 性 的 组 织 ， 负 责 维护 标准 的 RISC-V 指令 集 手 册 与 架 
构 文 档 ， 并 推动 RISC-V 架构 的 发 展 。 

RISC-V 架构 的 目标 如 下 。 

。 成 为 一 种 完全 开放 的 指令 集 ， 可 以 被 任何 学 术 机 构 或 商业 组 织 所 自由 使 用 。 

。 成 为 一 种 真正 适合 硬件 实现 且 稳 定 的 标准 指令 集 。 

RISC-V 基金 会 负责 维护 标准 的 RISC-V 架构 文档 和 编译 器 等 CPU 所 需 的 软件 工具 链 ， 
任何 组 织 和 个 人 可 以 随时 在 RISC-V 基金 会 网 站 上 免费 下 载 〈 无 须 注册 )。 

RISC-V 的 推出 以 及 基金 会 的 成 立 ， 受 到 了 学 术 界 与 工业 界 的 巨大 欢迎 。 著 名 的 科技 行 
业 分 析 公 司 Linley Group 将 RISC-V 评 为 “2016 F The Linley 
ERUERA”, WE 1-12 所 示 。 A. 

开放 而 免费 的 RISC-V 架构 诞生 , 不 仅 对 于 高 < eee ey 
校 与 研究 机 构 是 个 好 消息 ;为 前 期 资金 缺乏 的 创  ” 民 I 到 人 -MY choice Awards „BEST 
业 公 司 、 成 本 极其 敏感 的 产品 、 对 现 有 软件 生态 
依赖 不 大 的 领域 ， 都 提供 了 另外 一 种 选择 ， 而 且 8| 142.. RISC-V ARA 
得 到 了 业界 主要 科技 公司 的 拥戴 ， 包 括 谷 歌 、 惠 普 、Oracle 和 西部 数据 等 硅谷 巨头 都 是 
RISC-V 基金 会 的 创始 会 员 ， 如 图 1-13 所 示 。 众 多 的 芯片 公司 已 经 开始 使 用 〈 璧 如 ， 三 星 、 
英 伟 达 等 ) 或 者 计划 使 用 RISC-V 开发 其 自 有 的 处 理 器 用 于 其 产品 。 

RISC-V 基金 会 组 织 每 年 举行 两 次 公开 的 专题 讨论 会 (Workshop)， 以 促进 RISC-V 阵营 
的 交流 与 发 展 ， 任 何 组 织 和 个 人 均 可 以 从 RISC-V 基金 会 的 网 站 上 下 载 到 每 次 Workshop F 
示 的 PPT 与 文档 。RISC-V 第 六 次 Workshop F 2017 年 5 月 在 中 国 的 上 海 交 通 大 学 举办 ， 如 图 
1-14 所 示 ， 吸 引 了 大 批 的 中 国 公 司 和 爱好 者 参与 。 
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图 1-13 RISC-V 基金 会 创始 会 员 ， 铀 金 、 金 、 银 级 会 员 图 谱 


由 于 许多 现在 主流 的 计算 机 体系 结构 英文 教材 ( 璧 如， 计算 机 体系 结构 量化 研究 方法 、 
计算 机 组 成 与 设计 等 ) 的 作者 本 身 也 是 RISC-V 架构 的 发 起 者 ， 因 此 这 些 英文 教材 都 相继 推 
出 了 以 RISC-V 架构 为 基础 的 新 版 本 教材 ， 如 图 1-15 所 示 。 这 意味 着 美国 的 大 多 数 高 校 都 将 
开始 采用 RISC-V 作为 教学 范例 ， 也 意味 着 若干 年 后 的 高 校 毕 业 生 都 将 对 RISC-V 架构 非常 
熟知 。 





1-14 上 海 交 通 大 学 举办 的 RISC-V 第 六 次 Workshop 图 1-15 经 典 教 材 计 算 机 组 成 与 设计 最 新 版 本 


但 是 ， 一 款 指令 集 架 构 (ISA) 最 终 能 否 取 得 成 功 ， 很 大 程度 上 取决 于 软件 生态 环境 。 
罗马 不 是 一 天 建成 的 ，x86 与 ARM 架构 经 过 多 年 的 经 营 , 构建 了 城 宽 池 阔 的 软件 生态 环境 ， 
可 以 说 是 兵 精 粮 足 ， 非 常 强大 。 因 此 ， 作 者 认为 RISC-V 架构 在 短 时 间 内 还 无 法 对 x86 和 
ARM 架构 形成 撼动 。 但 是 随 着 越 来 越 多 的 公司 和 项 目 开 始 采 用 RISC-V RARAS, AH 
信 RISC-V 的 软件 生态 也 会 逐步 壮大 起 来 。 

AC RARA TG RISC-V 秆 勃发 展 的 具体 案例 ， 但 是 由 于 RISC-V 阵营 正在 快速 地 
同 前 发 展 ， 可 能 在 本 书 成 书 之 时 ，RISC-V 阵营 又 诞生 了 更 加 令 人 欣喜 的 案例 ， 请 读者 上 自行 
查阅 互联 网 更 新 见闻 。 

第 2 章 将 详细 介绍 RISC-V 架构 的 技术 细节 。 
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1.0 EE TE Tn 


在 第 1.5 节 中 我 们 提 到 ，RISC-V 架构 的 特点 是 开放 而 且 免 费 ， 并 且 成 立 了 专门 的 基金 
会 组 织 推 动 其 发 展 ， 这 是 以 前 任何 一 种 处 理 器 架构 都 不 曾 有 过 的 。 这 种 新 的 模式 是 否 会 对 现 
有 的 商业 处 理 器 架构 形成 冲击 呢 ?ARM 与 Intel 这 样 的 行业 巨头 商业 公司 是 否 会 感到 压力 
E? 不 得 不 客观 地 说 ，RISC-V 基金 会 诞生 的 时 间 还 很 短暂 ，RISC-V 架构 的 生态 目前 还 不 够 
强大 ， 远 远 没 有 到 达 威 胁 到 ARM 5 Intel 的 程度 ， 因 此 ARM 与 Intel 并 未 在 任何 公开 的 场 
合 对 RISC-V 发 表 过 评价 。 

在 第 1.4.1 节 中 我 们 已 经 提 到 过 ARM 的 商业 模式 ， 芯 片 公司 每 设计 一 款 必 片 ， 如 果 购 
买 了 ARM 公司 提供 的 “ARM 处 理 器 ”， 芯 片 公司 需要 支付 一 笔 前 期 授权 费 。 之 后 ， 如 果 蒋 
芯片 被 大 规模 生产 销售 , 每 卖 出 一 片 芯 片 均 需 要 按 其 售 价 向 ARM ZR] CAE XE ECL FUR e 
但 是 在 2017 Æ 6 H, ARM 宣布 了 Cortex-M3 和 Cortex-MO 两 款 处 理 器 的 免 前 期 授权 费 计 划 。 
这 意味 着 自 此 之 后 ARM Cortex-M 系列 的 两 款 处 理 器 MO 和 M3 均 被 免除 了 早期 授权 费 ， 用 
户 仅 需 在 量 产 世 片 后 向 ARM 逐 片 支付 版 税 即 可 。 这 对 于 广大 使 用 Cortex-M 处 理 器 的 心 片 
公司 而 言 无 疑 是 个 好 消息 。 

有 评论 表示 ，ARM 之 所 以 这 样 做 可 能 也 是 对 目前 如 火 如 茶 的 开放 RISC-V 架构 的 一 种 
阻击 。 当 然 ， 作 者 认为 这 只 是 某 些 看 客 们 毫 无 根据 的 个 人 观点 ， 真 实 性 不 具备 任何 可 考 性 。 
不 过 无 论 如 何 ， 作 者 认为 ， 有 竞争 、 有 活力 的 市 场 ， 总 比 一 家 独 大 的 守 头 垄断 要 有 趣 得 多 。 





1.7 旧时 王 谢 堂前 燕 , 飞 入 寻常 百姓 家 一 一 你 也 可 以 设计 自己 的 处 理 器 





本 章 系 统 地 论述 了 CPU 的 “三 世 三 生 ” 也 简 述 了 ARM 的 如 何 强大 以 及 开放 RISC-V 
架构 的 诞生 。 | 

一 言 以 蔽 之 ， 开 放 而 免费 RISC-V 架构 使 得 任何 公司 与 个 人 均 可 受用 ， 极 大 地 降低 了 
CPU 设计 的 准 入 门槛 。 有 了 RISC-V 架构 ，CPU 设计 将 不 再 是 “权贵 的 游戏 ”， 有 道 是 “ 旧 





WEWE, KAF AR” f 8 n] Uiit E GR ABER. 
本 书 的 第 2 章 将 详细 介绍 RISC-V 架构 的 细节 ， 在 本 书 的 第 二 部 分 将 结合 开源 的 蜂 乌 
E200 (ET RISC-V 架构 〉 实 例 详 细 介 绍 如 何 设 计 一 蒜 RISC-V Ab3H S. 


第 2 章 大 道 至 简 
——RISC-V 架构 之 魂 





“Simplicity is a great virtue but it requires hard work to achieve it and education to 


appreciate it. And to make matters worse: complexity sells better.” 
— Edsger W. Dijkstra 
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XT RISC-V 架构 的 诞生 初 囊 和 背景 ， 请 参见 第 1.5 节 ， 本 章 在 此 不 做 重复 资 述 。 本 章 
将 对 RISC-V 架构 的 设计 思想 进行 深入 浅 出 的 介绍 。 

注意 : 本 章 中 将 会 多 次 出 现 “RISC 处 理 器 ”“RISC 架构 ”RISC-V 处 理 器 ”和 “RISC-V 
架构 ”等 关键 词 。 请 初学 者 务必 注意 加 以 区 别 ， 如 第 1 章 中 所 述 。 

e RISC 表示 精简 指令 集 (Reduced Instruction Set Computer, RISC). 

e RISC-V 只 是 伯克利 发 明 的 一 种 特定 指令 集 架 构 ( 属 于 RISC 类 型 )。 


2.1 





Ed t RISC-V ici: bp ER 


RISC-V 架构 作为 一 种 指令 集 架 构 ， 在 介绍 细节 之 前 ， 让 我 们 先 了 解 设 计 的 哲学 。 所 谓 
设计 的 “哲学 ” 便 是 其 推崇 的 一 种 策略 ， 璧 如 我 们 熟知 的 日 本 车 的 设计 哲学 是 经 济 省 油 ， 美 
国 车 的 设计 哲学 是 霸气 等 。RISC-V 架构 的 设计 哲学 是 什么 呢 ? 是 “大 道 至 简 ”。 

作者 最 为 推崇 的 一 种 设计 哲学 便 是 : 简单 就 是 美 ， 简单 便 意味 着 可 靠 。 无 数 的 实际 案例 
已 经 佐证 了 “简单 即 意味 着 可 靠 ” 的 真理 ， 反 之 越 复 杂 的 机 器 则 越 容易 出 错 。 一 个 最 好 的 例 
子 便 是 著名 的 AK47 冲锋 枪 , 正 是 由 于 简单 可 靠 的 设计 哲学 , 使 其 性 价 比 和 可 靠 性 极其 出 众 ， 
成 为 世界 上 应 用 最 广泛 的 单 兵 武器 。 

在 格斗 界 ， 初 学 者 往往 容易 陷入 追求 花 式 繁复 技巧 的 泥 淖 ， 迷 信 于 花 拳 绕 腿 。 然 而 顶级 的 
格斗 高 手 ， 最 终 使 用 的 都 是 简单 、 直 接 的 招式 。 所 谓 大 道 至 简 ， 在 IC 设计 的 实际 工作 中 ， 作 者 
曾 见 过 简洁 的 设计 实现 其 安全 可 靠 ， 也 曾 见 过 繁复 的 设计 长 时 间 无 法 稳定 收敛 。 简 洁 的 设计 往 
往 是 可 靠 的， 在 大 多 数 的 项 目 实践 中 一 次 次 得 到 检验 。IC 设计 的 工作 性 质 非常 特殊 ， 其 最 终 的 
产 出 是 芯片 ， 而 一 款 蕊 片 的 设计 和 制造 周期 均 很 长 ， 无 法 像 软 件 代 码 那 样 轻易 地 进行 升级 和 打 
补丁 ， 每 一 次 芯片 的 改版 到 交付 都 需要 几 个 月 的 周期 。 不 仅 如 此 ， 蕊 片 的 制造 成 本 费用 高 昂 ， 
从 几 十 万 美金 到 成 百 上 千 万 美金 不 等 。 这 些 特性 都 决定 了 IC 设计 的 试 错 成 本 极为 高 昂 ， 因 此 能 
够 有 效 地 降低 错误 的 发 生 就 显得 非常 重要 。 现 代 的 芯片 设计 规模 越 来 越 大 ， 复 杂 度 也 越 来 越 高 ， 
并 不 是 要 求 设计 者 一 味 地 逃避 使 用 复杂 的 技术 ， 而 是 应 该 将 好 钢 用 在 刀刃 上 ， 将 最 复杂 的 设计 
用 在 最 为 关键 的 场景 ， 在 大 多 数 有 选择 的 情况 下 ， 尽 量 选择 简洁 的 实现 方案 。 

作者 在 第 一 次 阅读 RISC-V 架构 文档 之 时 ， 不 禁 赞 叹 。 因 为 RISC-V 架构 在 其 文档 中 不 
断 地 明确 强调 其 设计 哲学 是 “大 道 至 简 ”， 力 图 通过 架构 的 定义 使 硬件 的 实现 足够 简单 。 其 
简单 就 是 美的 哲学 ， 可 以 从 几 个 方面 看 出 ， 后 续 小 节 将 一 一 加 以 论述 。 


2.1.4 无 病 一 身 轻 Zi T4] B An Ts 
在 第 1 章 中 论述 过 目前 主流 的 架构 为 x86 与 ARM 架构 。 作 者 曾经 参与 设计 ARM 架构 
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的 应 用 处 理 器 ， 因 此 需要 阅读 ARM 的 架构 文档 。 如 果 对 ARM 的 架构 文档 熟悉 的 读者 应 该 
了 解 其 篇 幅 。 经 过 几 十 年 的 发 展 ， 现 在 的 x86 与 ARM 架构 的 架构 文档 多 达 数 千 页 ， 打 印 出 
来 能 有 半 个 桌子 高 ， 可 真是 “ 漆 作 等 身 ”。 

想必 x86 与 ARM 架构 在 诞生 之 初 ， 其 篇 幅 也 不 至 于 像 现 在 这 般 长 篇 累 肤 。 之 所 以 架构 
文档 长 达 数 千 页 ， 且 版 本 众多 ,一 个 主要 的 原因 是 其 架构 发 展 的 过 程 也 伴随 了 现代 处 理 器 架 
构 技 术 的 不 断 发 展 成 熟 ， 并 且 作 为 商用 的 架构 ， 为 了 能 够 保持 架构 的 同 后 兼容 性 ， 不 得 不 保 
留 许多 过 时 的 定义 , 或 者 在 定义 新 的 架构 部 分 时 为 了 能 够 兼容 已 经 存在 的 技术 部 分 而 显得 非 
常 的 别扭 。 久 而 久之 就 变 成 了 老太婆 的 里 脚 布 一 一 极为 见长， 可 以 说 是 积 重 难 返 。 

那么 现代 成 熟 的 架构 是 否 能 够 选择 重新 开始 , 重新 定义 一 个 简洁 的 架构 呢 ? 可 以 说 是 几 
乎 不 可 能 。Intel 也 曾经 在 推出 Itanium 架构 之 时 男 起 灶 炉 ， 放 弃 了 问 前 兼容 性 ， 最 终 Intel 
的 Itanium 遭遇 惨败 ， 其 中 一 个 重要 的 原因 便 是 其 无 法 同 前 兼容 ， 从 而 无 法 得 到 用 户 的 接受 。 
试想 一 下 ， 如 果 我 们 买 了 一 款 具 有 新 的 处 理 器 的 计算 机 或 者 手机 , 之 前 所 有 的 软件 都 无 法 运 
行 ， 那 肯定 是 无 法 让 人 接受 的 。 

现在 推出 的 RISC-V 架构 ， 则 具备 了 后 发 优势 。 由 于 计算 机 体系 结构 经 过 多 年 的 发 展 已 经 
是 一 个 比较 成 熟 的 技术 ， 多 年 来 在 不 断 成 熟 的 过 程 中 暴露 的 问题 都 已 经 被 研究 透彻 了 ， 因 此 
新 的 RISC-V 染 构 能 够 加 以 规避 ， 并 且 没 有 背负 癌 后 兼容 的 历史 包容 ， 可 以 说 是 无 病 一 里 轻 。 

目前 的 “RISC-V 架构 文档 ”分 为 “指令 集 文档 ”和 “特权 架构 文档 ”。“ 指 令 集 文档 ” 
的 篇 幅 为 100 多 页 ， 而 “特权 架构 文档 ”的 篇 幅 也 仅 为 100 页 左右 。 熟 悉 体 系 结构 的 工程 师 
仅 需 一 两 天 便 可 将 其 通读 ， 虽 然 “RISC-V 的 架构 文档 ”还 在 不 断 地 丰富 ， 但 是 相 比 “x86 
的 架构 文档 ”与 “ARM 的 架构 文档 ”，RISC-V 的 篇 幅 可 以 说 是 极其 短小 精 悍 。 

感 兴趣 的 读者 可 以 登录 RISC-V 基金 会 的 网 站 ， 无 须 注 册 使 可 免费 下 载 文档 ， 如 图 2-1 所 示 。 


e t ISC We OnT Or T " Abm cs proet” G 





Tha RISC-V. Instruction Set Mannal 
Wan 15 own Lossd 18A 


Usa mmt Www 


"Fires Itm. 


图 2-1 RISC-V 基金 会 网 站 上 的 架构 文档 
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2.1.2 ”能 屈 能 伸 一 一 模块 化 的 指令 


RISC-V 架构 相 比 其 他 成 熟 的 商业 架构 ， 最 大 的 不 同 在 于 它 是 一 个 模块 化 的 架构 。 因 此 
RISC-V 架构 不 仅 短小 精 悍 ， 而 且 其 不 同 的 部 分 还 能 以 模块 化 的 方式 组 织 在 一 起 ， 从 而 试图 
通过 一 套 统 一 的 架构 满足 各 种 不 同 的 应 用 。 

这 种 模块 化 是 x86 与 ARM 架构 所 不 具备 的 。 以 ARM 的 架构 为 例 , ARM 的 架构 分 为 A、 
R 和 M， 共 3 个 系列 ， 分 别针 对 应 用 操作 系统 (Application), HF (Real-Time) AIAX 
(Embedded) 3 个 领域 ， 彼 此 之 间 并 不 兼容 。 但 是 模块 化 的 RISC-V 架构 能 够 使 得 用 户 灵活 
地 选择 不 同 的 模块 进行 组 合 ， 以 满足 不 同 的 应 用 场景 ， 可 以 说 是 “老少 咸 宜 ”。 例 如 针对 小 
面积 、 低 功 耗 的 嵌入 式 场景 , 用户 可 以 选择 RV32IC 组 合 的 指令 集 , 仅 使 用 机 器 模式 (Machine 
Mode); 而 针对 高 性 能 应 用 操作 系统 场景 ， 则 可 以 选择 例如 RV32IMFDC 的 指令 集 ， 使 用 机 
器 模式 (Machine Mode) 与 用 户 模 式 (User Mode) 两 种 模式 。 

在 第 2.2.1 节 中 将 会 介绍 RISC-V 指令 集 模块 化 特性 的 详情 。 


2.1.3 浓缩 的 都 是 精华 一 一 指令 的 数量 


短小 精 悍 的 架构 和 模块 化 的 哲学 ， 使 得 RISC-V 架构 的 指令 数目 非常 简洁 。 基 本 的 
RISC-V 指令 数目 仅 有 40 多 条 ， 加 上 其 他 的 模块 化 扩展 指令 总 共 几 十 条 指令 。 图 2-2 是 RISC-V 
指令 集 图 卡 ， 请 参见 附录 A 了 解 RISC-V 指令 集 的 详细 信息 。 








图 2-2 RISC-V 指令 集 图 卡 
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pp? 有。 RISC 一 V 指令 集 架 构 简介 


本 章 将 对 RISC-V 的 指令 集 架 构 多 方面 的 特性 进行 简要 介绍 。 

注意 : 本 节 仅 对 RISC-V 的 指令 集 架 构 的 特点 进行 概述 和 横向 比较 。 有 关 RISC-V 指令 
集 架构 的 详情 ,请 参见 附录 A。 在 本 节 进 行 横向 比较 的 描述 中 涉及 许多 处 理 器 设计 的 常识 和 
背景 知识 ， 对 于 完全 不 了 解 CPU 的 初学 者 而 言 可 能 难以 理解 ， 请 参见 第 二 部 分 与 第 三 部 分 
中 的 各 章节 进行 系统 学 习 后 再 来 理解 本 节 的 内 容 。 


2.2.1 ”模块 化 的 指令 子 集 


RISC-V 的 指令 集 使 用 模块 化 的 方式 进行 组 织 ， 每 一 个 模块 使 用 一 个 英文 字母 来 表示 。 
RISC-V 最 基本 也 是 唯一 强制 要 求实 现 的 指令 集 部 分 是 由 工 字母 表示 的 基本 整数 指令 子 集 。 
使 用 该 整数 指令 子 集 , 便 能 够 实现 完整 的 软件 编译 器 。 其 他 的 指令 子 集 部 分 均 为 可 选 的 模块 ， 
具有 代表 性 的 模块 包括 M/A/F/D/C， 如 表 2-1 所 示 。 


表 2-1 RISC-V 的 模块 化 指令 
基本 指令 集 描述 
RV321 32 位 地 址 空间 与 整数 指令 ， 支 持 32 个 通用 整数 寄存 器 
RV32E RV32I 的 子 集 ， 仅 支持 16 个 通用 整数 寄存 器 
RV64I 64 位 地 址 空间 与 整数 指令 及 一 部 分 32 位 的 整数 指令 
RV128I 128 位 地 址 空间 与 整数 指令 及 一 部 分 64 位 和 32 位 的 指令 
扩展 指令 集 指令 数 描 述 
M | ”8 | 整数 乘法 与 除法 指令 
A 存储 器 原子 (Atomic) 操作 指令 和 Load-Reserved/Store-Conditional 指令 
F 单 精度 G2 比特 ) 浮 点 指令 
D 双 精度 64 比特 ) 浮 点 指令 ， 必 须 支持 F 扩展 指令 
C | 46 | 压缩 指令 ， 指 令 长 度 为 16 位 


以 上 模块 的 一 个 特定 组 合 “IMAFD”， 也 被 称 为 “通用 ”组 合 ， 用 英文 字母 G 表示 。 因 
此 RV32G 表示 RV32IMAFD， 同 理 RV64G 表示 RV64IMAFD. 

为 了 提高 代码 密度 ，RISC-V 架构 也 提供 可 选 的 “压缩 ”指令 子 集 ， 用 英文 字母 C 表示 。 
压缩 指令 的 指令 编码 长 度 为 16 比特， 而 普通 的 非 压缩 指令 的 长 度 为 32 比特 。 

为 了 进一步 减少 面积 ，RISC-V 架构 还 提供 一 种 “ 磐 入 式 ” 架 构 ， 用 英文 字母 E 表示 。 
该 架构 主要 用 于 追求 极 低 面 积 与 功 耗 的 深 舱 入 式 场 景 。 该 架构 仅 需要 文 持 16 个 通用 整数 寄 
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存 器 ， 而 非 肉 入 式 的 普通 架构 则 需要 支持 32 个 通用 整数 寄存 器 。 
通过 以 上 的 模块 化 指令 集 , 能 够 选择 不 同 的 组 合 来 满足 不 同 的 应 用 。 例 如 , 追求 小 面积 、 
(& ZI FER HUN 253223 RJ LX EE FH RV32EC 架构 ， 而 大 型 的 64 位 架构 则 可 以 选择 RV64G. 
除了 上 述 模块 ， 还 有 若干 的 模块 如 L、B、P、V 和 TI 等 。 目 前 这 些 扩展 大 多 数 还 在 不 断 
完善 和 定义 中 ， 尚 未 最 终 确 定 ， 因 此 不 做 详细 论述 。 


2.2.2 可 配置 的 通用 寄存 器 组 


RISC-V 架构 支持 32 位 或 者 64 位 的 架构 ，32 位 架构 由 RV32 表示 ， 其 每 个 通用 寄存 器 
的 宽度 为 32 比特 ，64 位 架构 由 RV64 表示 ， 其 每 个 通用 寄存 器 的 宽度 为 64 比特 。 

RISC-V 架构 的 整数 通用 寄存 器 组 ， 包 含 32 个 (I 架构 ) 或 者 16 个 (E 架构 ) 通用 整数 
寄存 器 ， 其 中 整数 寄存 器 0 被 预 留 为 常数 0， 其 他 的 31 个 (I 架构) 或 者 15 个 〈E 架构 ) 
为 普通 的 通用 整数 寄存 器 。 

如 果 使 用 浮 点 模块 CF 或 者 D)， 则 需要 另外 一 个 独立 的 浮 点 寄存 器 组 ， 包 含 32 个 通用 
浮 点 寄存 器 。 如 果 仅 使 用 下 模块 的 浮 点 指令 子 集 ， 则 每 个 通用 浮 点 寄存 器 的 宽度 为 32 比特 ; 
如 果 使 用 了 D 模块 的 浮 点 指令 子 集 ， 则 每 个 通用 浮 点 寄存 器 的 宽度 为 64 比特 。 

请 参见 附录 A4.1 节 了 解 RISC-V 架构 通用 寄存 器 组 的 细节 。 


2.2.3 规整 的 指令 编码 


在 流水 线 中 能 够 尽快 地 读 取 通用 寄存 器 组 ， 往 往 是 处 理 器 流水 线 设 计 的 期 望 之 一 ， 这 样 
可 以 提高 处 理 器 性 能 和 优化 时 序 。 这 个 看 似 简单 的 道理 在 很 多 现存 的 商用 RISC 架构 中 都 难 
以 实现 ， 因 为 经 过 多 年 反复 修改 不 断 添加 新 指令 后 ， 其 指令 编码 中 的 寄存 器 索引 位 置 变 得 非 
常 凌乱 ， 给 译 码 器 造成 了 负担 。 

得 益 于 后 发 优势 和 总 结 了 多 年 来 处 理 器 
发 展 的 经 验 ，RISC-V 的 指令 集 编码 非常 规 
整 ， 指 令 所 需 的 通用 寄存 器 的 索引 (Index ) PUN E Morem 
都 被 放 在 固定 的 位 置 ， 如 图 2.3 所 示 。 因 此 0 eu 
JH VERE CInstruction Decoder) 可 以 非常 图 2-3 RV32L 规整 的 指令 编码 格式 
便捷 地 译 码 出 寄存 器 索引 ， 然 后 读 取 通 用 寄存 器 组 (Register File，Regfile)。 

请 参见 附录 下 了解 RISC-V 架构 指令 集 列 表 和 编码 细节 。 


2.2.4 简洁 的 存储 器 访问 指令 
与 所 有 的 RISC 处 理 器 架构 一 样 ，RISC-V 架构 使 用 专用 的 存储 器 读 CLoad) 指令 和 存 
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tr (Store) 指令 访问 存储 器 (Memory)， 其 他 的 普通 指令 无 法 访问 存储 器 ， 这 种 架构 是 
RISC 架构 第 用 的 一 个 基本 策略 。 这 种 策略 使 得 处 理 器 核 的 硬件 设计 变 得 简单 。 存 储 器 访问 
的 基本 单位 是 字 节 (Byte)。RISC-V 的 存储 器 读 和 存储 器 写 指令 支持 一 个 字 节 〈8 位 )、 半 字 
(16 位 )、 单字 (32 位 ) 为 单位 的 存储 器 读 写 操作 。 如 果 是 64 位 架构 还 可 以 支持 一 个 双 字 C64 
位 ) 为 单位 的 存储 器 读 写 操作 。 

RISC-V 染 构 的 存储 器 访问 指令 还 有 如 下 显著 特点 。 

e 为 了 提高 存储 器 读 写 的 性 能 ，RISC-V 架构 推荐 使 用 地 址 对 齐 的 存储 器 读 写 操作 ,但 
是 也 支持 地 址 非 对 齐 的 存储 器 操作 RISC-V 架构 。 处 理 器 既 可 以 选择 用 硬件 来 支持 ， 
也 可 以 选择 用 软件 来 支持 。 

。 由 于 现在 的 主流 应 用 是 小 端 格式 (Little-Endian)，RISC-V 架构 仅 支 持 小 端 格式 。 有 
天 小 问 格 式 和 大 端 格式 的 定义 和 区 别 ， 在 此 不 做 过 多 介绍 。 若 对 此 不 太 了 解 的 初学 
者 可 以 自行 查阅 学 习 。 

。 很 多 的 RISC 处 理 器 都 支持 地 址 自 增 或 者 自 减 模式 ， 这 种 自 增 或 者 自 减 的 模式 虽然 
能 够 提高 处 理 器 访问 连续 存储 器 地 址 区 间 的 性 能 , 但 是 也 增加 了 设计 处 理 器 的 难度 。 
RISC-V 架构 的 存储 器 读 和 存储 器 写 指令 不 支持 地 址 自 增 自 减 的 模式 。 

。 RISC-V 架构 采用 松散 存储 器 模型 (Relaxed Memory Model)， 松 散 存 储 器 模型 对 于 
访问 不 同 地 址 的 存储 器 读 写 指令 的 执行 顺序 不 作 要 求 ， 除 非 使 用 明确 的 存储 器 屏障 
(Fence) 指令 加 以 屏蔽 。 有 关 存 储 器 模型 Memory Model) 和 存储 器 屏障 指令 的 更 
多 信息 ， 请 参见 附录 A13。 

这 些 选择 都 清楚 地 反映 了 RISC-V 架构 力图 简化 基本 指令 集 , 从 而 简化 硬件 设计 的 哲学 。 
RISC-V 架构 如 此 定义 是 具有 合理 性 的 ， 能 达到 能 届 能 伸 的 效果 。 例 如 ， 对 于 低 功 耗 的 简单 
CPU， 可 以 使 用 非常 简单 的 硬件 电路 即 可 完成 设计 ; 而 对 于 追求 高 性 能 的 超标 量 处 理 器 ， 则 
可 以 通过 复杂 设计 的 动态 硬件 调度 能 力 来 提高 性 能 。 

请 参见 附录 A14.2 节 了 解 RISC-V 架构 存储 器 访问 指令 的 细节 。 


2.2.5 “高效 的 分 支 跳 转 指令 


RISC-V 架构 有 两 条 无 条 件 跳 转 指令 (Unconditional Jump), BI jal 指令 与 jalr 指令 。 跳 
转 链 接 (Jump and Link) 指令 一 一 jal 指令 可 用 于 进行 子 程序 调用 ， 同 时 将 子 程序 返回 地 址 
存在 链接 寄存 器 (Link Register， 由 某 一 个 通用 整数 寄存 器 担任 ) 中 。 跳 转 链接 寄存 器 (Jump and 
Link-Register) 指令 一 一 jalr 指令 能 够 用 于 子 程序 返回 指令 ， 通 过 将 jal 指令 “〈 跳 转 进入 子 程 
序 ) 保存 的 链接 寄存 器 用 于 jar 指令 的 基地 址 寄存 器 ， 则 可 以 从 子 程序 返回 。 请 参见 附录 
A14.2 755 f fff jal 和 jalr 指令 的 详细 内 容 。 

RISC-V 架构 有 6 条 带 条 件 跳 转 指令 (Conditional Branch)， 这 种 带 条 件 的 跳 转 指令 跟 普 
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通 的 运算 指令 一 样 直 接 使 用 两 个 整数 操作 数 ， 然 后 对 其 进行 比较 。 如 果 比 较 的 条 件 满足 ， 则 
进行 跳 转 ， 因 此 此 类 指令 将 比较 与 跳 转 两 个 操作 放 在 一 条 指令 里 完成 。 作 为 比较 , 很 多 其 他 
的 RISC 架构 的 处 理 器 需要 使 用 两 条 独立 的 指令 。 第 一 条 指令 先 使 用 比较 指令 ， 比 较 的 结果 
被 保存 到 状态 寄存 器 之 中 ; 第 二 条 指令 使 用 跳 转 指令 ， 判 断 前 一 条 指令 保存 在 状态 寄存 器 当 
中 的 比较 结果 为 真 时 ， 则 进行 跳 转 。 相 比 而 言 ，RISC-V 的 这 种 带 条 件 跳 转 指令 不 仅 减 少 了 
指令 的 条 数 ， 同 时 硬件 设计 上 更 加 简单 。 请 参见 附录 A14.2 节 了 解 6 条 带 条 件 跳 转 指令 的 详 
细 内 容 。 

对 于 没有 配备 硬件 分 支 预测 器 的 低 端 CPU， 为 了 保证 其 性 能 ，RISC-V 的 架构 明确 要 求 
采用 默认 的 静态 分 支 预 测 机 制 ， 即 如 果 是 向 后 跳 转 的 条 件 跳 转 指令 ， 则 预测 为 “ 跳 ”， 如 果 
是 癌 前 跳 转 的 条 件 跳 转 指令 ， 则 预测 为 “不 跳 ” 并 且 RISC-V 架构 要 求 编译 器 也 按照 这 种 
默认 的 静态 分 支 预测 机 制 来 编译 生成 汇编 代码 ， 从 而 让 低 端 的 CPU 也 得 到 不 错 的 性 能 。 

在 低 端 的 CPU 中 ,为 了 使 硬件 设计 尽量 简单 ，RISC-V 架构 特地 定义 了 所 有 的 带 条 件 跳 
转 指 令 跳 转 目 标的 偏 移 量 ( 相 对 于 当前 指令 的 地 址 ) 都 是 有 符号 数 ， 并 且 其 符号 位 被 编码 在 
固定 的 位 置 。 因 此 这 种 静态 预测 机 制 在 硬件 上 非常 容易 实现 , 硬件 译 码 器 可 以 轻松 地 找到 固 
定 的 位 置 ， 判 断 该 位 置 的 比特 值 为 1， 表示 负数 《反之 则 为 正 数 )。 根 据 静 态 分 文 预 测 机 制 ， 
如 果 是 负数 ， 则 表示 跳 转 的 目标 地 址 为 当前 地 址 减 去 偏 移 量 ， 也 就 是 向 后 跳 转 ， 则 预测 为 
^B". 当然 ， 对 于 配备 有 硬件 分 支 预 测 器 的 高 端 CPU， 则 还 可 以 采用 高 级 的 动态 分 文 预 测 
机 制 来 保证 性 能 。 


2.2.6 简洁 的 子 程序 调用 


为 了 理解 此 节 , 需 先 对 一 般 RISC 架构 中 程序 调用 子 函 数 的 过 程 了 予以 介绍 ,其 过 程 如 下 。 
e 进入 子 函数 之 后 需要 用 存储 器 写 (Store) 指令 来 将 当前 的 上 下 文 (通用 寄存 器 等 的 
E) 保存 到 系统 存储 器 的 堆栈 区 内 ， 这 个 过 程 通 常 称 为 “保存 现场 ”。 
。 在 退出 子 程序 时 ， 需 要 用 存储 器 读 (Load) 指令 来 将 之 前 保存 的 上 下 文 (通用 寄存 
器 等 的 值 ) 从 系统 存储 器 的 堆栈 区 读 出 来 ， 这 个 过 程 通 常 称 为 “恢复 现场 ”。 
“保存 现场 ”和 “恢复 现场 ”的 过 程 通常 由 编译 絮 编 译 生 成 的 指令 完成 ， 使 用 融 层 语言 
《例如 C 语言 或 者 C++) 开发 的 开发 者 对 此 可 以 不 用 太 关 心 。 高 层 语言 的 程序 中 直接 写 上 一 
个 子 函 数 调 用 即 可 ， 但 是 这 个 底层 发 生 的 “保存 现场 ”和 “恢复 现场 ”的 过 程 却 是 实 实 在 在 
地 发 生 着 (可 以 从 编译 出 的 汇编 语言 里 面 看 到 那些 “保存 现场 ”和 “恢复 现场 ”的 汇编 指令 )， 
并 且 还 需要 消耗 在 干 的 CPU 执行 时 间 。 
为 了 加 速 “ 保 存 现场 ”和 “恢复 现场 ”的 过 程 ， 有 的 RISC 架构 发 明了 一 次 写 多 个 寄存 
器 到 存储 器 中 (Store Multiple)， 或 者 一 次 从 存储 器 中 读 多 个 寄存 器 出 来 (Load Multiple) 的 
指令 。 此 类 指令 的 好 处 是 一 条 指令 就 可 以 完成 很 多 事情 ， 从 而 减少 汇编 指令 的 代码 量 ， 节 省 
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代码 的 空间 大 小 。 但 是 “一 次 读 多 个 寄存 器 指令 ”和 “一 次 写 多 个 寄存 器 指令 ”的 弊端 是 会 
让 CPU 的 硬件 设计 变 得 复杂 ， 增 加 硬件 的 开销 ， 也 可 能 损伤 时 序 ， 使 得 CPU 的 主 频 无 法 提 
高 ， 作 者 曾经 设计 此 类 处 理 器 时 便 深 受 其 雷 。 

RISC-V 染 构 则 放弃 使 用 “一 次 读 多 个 寄存 器 指令 ”和 “一 次 写 多 个 寄存 器 指令 ”。 如 果 
有 的 场合 比较 介意 “保存 现场 ”和 “恢复 现场 ”的 指令 条 数 , 那么 可 以 使 用 公用 的 程序 库 ( 专 
门 用 于 保存 和 恢复 现场 ) 来 进行 这 样 就 可 以 省 掉 在 每 个 子 函 数 调用 的 过 程 中 都 放置 数目 不 
等 的 “保存 现场 ”和 “恢复 现场 ”的 指令 。 此 选择 再 次 印证 了 RISC-V 退 求 硬件 简单 的 哲学 ， 
因为 放弃 “一 次 读 多 个 寄存 器 指令 ”和 “一 次 写 多 个 寄存 器 指令 ”可 以 大 幅 简 化 CPU 的 硬 
件 设计 ， 对 于 低 功 耗 小 面积 的 CPU 可 以 选择 非常 简单 的 电路 进行 实现 ， 而 高 性 能 超标 量 处 
理 器 由 于 硬件 动态 调度 能 力 很 加， 可 以 有 强大 的 分 支 预测 电路 保证 CPU 能 够 快速 地 跳 转 执 
行 ， 从 而 可 以 选择 使 用 公用 的 程序 库 《〈 专 门 用 于 保存 和 恢复 现场 ) 的 方式 减少 代码 量 ， 同 时 
达到 高 性 能 。 


2.2.7 无条件 码 执行 


很 多 早期 的 RISC 架构 发 明了 带 条 件 码 的 指令 ， 例 如 在 指令 编码 的 头 几 位 表示 的 是 条 件 
f3 (Conditional Code)， 只 有 该 条 件 码 对 应 的 条 件 为 真 时 ， 该 指令 才 被 真正 执行 。 

这 种 将 条 件 码 编码 到 指令 中 的 形式 可 以 使 编译 器 将 短小 的 循环 编译 成 带 条 件 码 的 指令 ， 
而 不 用 编译 成 分 文 跳 转 指 令 。 这 样 便 减 少 了 分 支 跳 转 的 出 现 , 一 方面 减少 了 指令 的 数目 ; 另 
一 方面 也 避免 了 分 支 跳 转 带 来 的 性 能 损失 。 然 而 ， 这 种 “条 件 码 ”指令 的 整 端 同样 会 使 CPU 
的 硬件 设计 变 得 复杂 ， 增 加 硬件 的 开销 ， 也 可 能 损伤 时 序 使 得 CPU 的 主 频 无 法 提高 。 

RISC-V 架构 则 放弃 使 用 这 种 带 “ 条 件 码 ”指令 的 方式 ， 对 于 任何 的 条 件 判断 都 使 用 普 
通 的 带 条 件 分 支 跳 转 指令 。 此 选择 再 次 印证 了 RISC-V 追求 硬件 简单 的 哲学 , 因为 放弃 带 “ 条 
件 码 ”指令 的 方式 可 以 大 幅 简 化 CPU 的 硬件 设计 ， 对 于 低 功 耗 小 面积 的 CPU 可 以 选择 非常 
简单 的 电路 进行 实现 ， 而 高 性 能 超标 量 处 理 器 由 于 硬件 动态 调度 能 力 很 强 ， 可 以 有 强大 的 分 
支 预测 电路 保证 CPU 能 够 快速 地 跳 转 执行 达到 高 性 能 。 


2.2.8 无 分 支 延 迟 覃 


很 多 早期 的 RISC 架构 均 使 用 了 “分 支 延 迟 槽 CDelay Slot)”， 具 有 代表 性 的 便 是 MIPS 架 
构 。 在 很 多 经 典 的 计算 机 体系 结构 教材 中 ， 均 使 用 MIPS 对 分 文 延 迟 槽 进行 介绍 。 分 支 延 迟 覃 
就 是 指 在 每 一 条 分 支 指 令 后 面 紧 跟 的 一 条 或 者 铬 干 条 指令 不 受 分 支 跳 转 的 影响 ， 不 管 分 支 是 否 
跳 转 ， 这 后 面 的 几 条 指令 都 一 定 会 被 执行 。 请 参见 第 7.1.4 节 了 解 更 多 分 文 延 迟 槽 的 背景 知识 。 
早期 的 RISC 架构 很 多 采用 了 分 支 延 迟 覃 诞生 的 原因 主要 是 当时 的 处 理 器 流水 线 比较 简 
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单 ， 没有 使 用 高 级 的 硬件 动态 分 支 预测 器 , 使 用 分 支 延 迟 权能 够 取得 可 观 的 性 能 效果 。 然而 ， 
这 种 分 支 延 迟 槽 使 得 CPU 的 硬件 设计 变 得 极为 别扭 ，CPU 设计 人 员 对 此 苦 不 堪 言 。 

RISC-V 架构 则 放弃 了 分 支 延 迟 槽 ， 再 次 印证 了 RISC-V 力图 简化 硬件 的 哲学 ， 因 为 现 
代 的 高 性 能 处 理 器 的 分 支 预 测算 法 精度 已 经 非常 高 ， 可 以 有 强大 的 分 支 预测 电路 保证 CPU 
能 够 准确 地 预测 跳 转 执行 达到 高 性 能 。 而 对 于 低 功 耗 、 小 面积 的 CPU， 由 于 无 须 支 持 分 支 
延迟 槽 ， 硬 件 得 到 极 大 简化 ， 也 能 进一步 减少 功 耗 和 提高 时 序 。 


2.2.0 雪 开 销 硬件 循环 


很 多 RISC 架构 还 支持 零 开 销 硬 件 循 环 CZero Overhead Hardware Loop) 指令 ， 其 思想 
是 通过 人 硬件 的 直接 参与 ， 设 置 某 些 循环 次 数 寄存 器 (Loop Count)， 然 后 可 以 让 程序 自动 地 
进行 循环 ， 每 一 次 循环 则 循环 次 数 寄存 器 自动 减 1， 这 样 持续 循环 直到 循环 次 数 寄存 器 的 值 
变 成 0， 则 退出 循环 。 

之 所 以 提出 发 明 这 种 硬件 协助 的 零 开 销 循环 是 因为 在 软件 代码 中 的 for 循环 〈for i=0; 
i<N; it+) 极为 常见 ， 而 这 种 软件 代码 通过 编译 器 编译 之 后 ， 往 往 会 编译 成 者 干 条 加 法 指令 
和 条 件 分 支 跳 转 指令 ， 从 而 达到 循环 的 效果 。 一 方面 这 些 加 法 和 条 件 跳 转 指令 占据 了 指令 的 
条 数 ， 另 一 方面 条 件 分 支 跳 转 存在 分 支 预测 的 性 能 问题 。 而 硬件 协助 的 零 开 销 循环 ， 则 将 这 
些 工作 由 硬件 直接 完成 ， 省 掉 了 加 法 和 条 件 跳 转 指 令 ， 减 少 了 指令 条 数 且 提高 了 性 能 。 

然而 ， 此 类 零 开 销 硬 件 循环 指令 大 幅 地 增加 了 硬件 设计 的 复杂 度 。 因 此 零 开 销 循 环 指令 
与 RISC-V 架构 简化 硬件 的 哲学 是 完全 相反 的 ， 在 RISC-V 架构 中 自然 没有 使 用 此 类 零 开 销 
硬件 循环 指令 。 


2.2.10 ”简洁 的 运算 指令 


在 第 2.2.1 节 中 曾经 提 到 RISC-V 架构 使 用 模块 化 的 方式 组 织 不 同 的 指令 子 集 ， 最 基本 的 整 
数 指令 子 集 (I 字母 表示 ) 支持 的 运算 包括 加 法 、 减 法 、 移 位 、 按 位 逻辑 操作 和 比较 操作 。 这 些 
基本 的 运算 操作 能 够 通过 组 合 或 者 函数 库 的 方式 完成 更 多 的 复杂 操作 (例如 乘除 法 和 浮 点 操 
作 )， 从 而 完成 大 部 分 的 软件 操作 。 请 参见 附录 A14.2 节 了 解 RISC-V 架构 整数 运算 指令 的 细节 。 

整数 乘除 法 指令 子 集 OM 字母 表示 ) 支持 的 运算 包括 有 符号 或 者 无 符号 的 乘法 和 除法 操 
作 。 乘 法 操作 能 够 支持 两 个 32 位 的 整数 相 乘 得 到 一 个 64 位 的 结果 ; 除法 操作 能 够 支持 两 个 
32 位 的 整数 相 除 得 到 一 个 32 位 的 商 与 32 位 的 余数 。 请 参见 附录 A14.3 节 了 解 RISC-V 架构 
整数 乘法 和 除法 指令 的 细节 。 单 精度 浮 点 指令 子 集 CF 字母 表示 ) 与 双 精 度 浮 点 指令 子 集 (D 
字母 表示 ) 支持 的 运算 包括 浮 点 加 减法 、 乘 除法 、 乘 累加 、 开 平方 根 和 比较 等 操作 ， 同 时 提 
供 整数 与 浮 点 、 单 精度 与 双 精 度 浮 点 之 间 的 格式 转换 操作 。 请 参见 附录 A14.4 节 了 解 RISC-V 
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架构 浮 点 指令 的 细节 。 

很 多 RISC 架构 的 处 理 器 在 运算 指令 产生 错误 之 时 ， 例 如 上 溢 (Overflow), Fi 
CUnderflow)、 非 规格 化 浮 点 数 (Subnormal) 和 除 零 (Divide by Zero)， 都 会 产生 软件 异常 。 
RISC-V 架构 的 一 个 特殊 之 处 是 对 任何 的 运算 指令 错误 〈 包 括 整数 与 浮 点 指令 ) 均 不 产生 异 
常 ， 而 是 产生 某 个 特殊 的 默认 值 ， 同 时 设置 某 些 状态 寄存 器 的 状态 位 。RISC-V 架构 推荐 软 
件 通 过 其 他 方法 来 找到 这 些 错误 。 再 次 清楚 地 反映 了 RISC-V 架构 力图 简化 基本 的 指令 集 ， 
从 而 简化 硬件 设计 的 哲学 。 


2.2.11 ”优雅 的 压缩 指令 子 集 


基本 的 RISC-V 基本 整数 指令 子 集 (字母 1 表示 ) 规定 的 指令 长 度 均 为 等 长 的 32 位 ,这 
种 等 长 指令 定义 使 得 仅 支 持 整 数 指令 子 集 的 基本 RISC-V CPU 非常 容易 设计 。 但 是 等 长 的 
32 位 编码 指令 也 会 造成 代码 体积 (Code Size) 相对 较 大 的 问题 。 

为 了 满足 某 些 对 于 代码 体积 要 求 较 高 的 场景 (例如 嵌入 式 领 域 )，RISC-V 定义 了 一 种 可 
选 的 压缩 (Compressed) 指令 子 集 ， 用 字母 C 表示 ， 也 可 以 用 RVC 表示 。RISC-V 具有 后 发 
优势 ， 从 一 开始 便 规划 了 压缩 指令 ， 预 留 了 足够 的 编码 空间 ，16 位 长 指令 与 普通 的 32 位 长 
指令 可 以 无 颖 自由 地 交织 在 一 起 ， 处 理 器 也 没有 定义 额外 的 状态 。 

RISC-V 压缩 指令 的 另 一 个 特别 之 处 是 ，16 位 指令 的 压缩 策略 是 将 一 部 分 普通 最 常用 的 
32 位 指令 中 的 信息 进行 压缩 重 排 得 到 (例如 假设 一 条 指令 使 用 了 两 个 同样 的 操作 数 索 引 ， 
则 可 以 省 去 其 中 一 个 索引 的 编码 空间 ), 因此 每 一 条 16 位 长 的 指令 都 能 找到 其 一 一 对 应 的 原 
始 32 位 指令 。 因 此 程序 编译 成 为 压缩 指令 仅 在 汇编 器 阶段 就 可 以 完成 ， 极 大 地 简化 了 编译 
器 工具 链 的 负担 。 

RISC-V 架构 的 研究 者 进行 了 详细 的 代码 体积 分 析 ， 如 图 2-4 所 示 ， 通 过 分 析 结 果 可 以 
看 出 ，RV32C 的 代码 体积 相 比 RV32 的 代码 体积 减少 了 40%， 并 且 与 ARM、MIPS 和 x86 
等 架构 相 比 有 不 错 的 表现 。 


32-bit Address 64-bit Address 


180% 二 17396 18096 - 77-699» 
180% - 16096 : 
n 140% A 

- il 126% 1 I 
120% 120% - 

100% V 量 

10096 | .N 

uu" a I A RV64 | l MIPS64 


q 2-4 eli he (数据 越 小 越 好 ) 
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2.2.12 ”特权 模式 


RISC-V 架构 定义 了 3 种 工作 模式 ， 又 称 为 特权 模式 CPrivileged Mode). 

e Machine Mode: 机 器 模式 ， 简 称 M Mode. 

e Supervisor Mode: 监督 模式 ， 简 称 S Mode. 

。 User Mode: 用 户 模 式 ， 简 称 U Mode. 

RISC-V 架构 定义 M Mode 为 必 选 模式 ， 另 外 两 种 为 可 选 模式 ， 通 过 不 同 的 模式 组 合 可 
以 实现 不 同 的 系统 。 请 参见 附录 AS 了 解 更 多 工作 模式 的 信息 。 

RISC-V 架构 也 文 持 几 种 不 同 的 存储 器 地 址 管理 机 制 ， 包 括 对 于 物理 地 址 和 虚拟 地 址 的 
管理 机 制 ， 使 得 RISC-V 架构 能 够 支持 从 简单 的 磐 入 式 系 统 (直接 操作 物理 地 址 ) 到 复杂 的 
操作 系统 (直接 操作 虚拟 地 址 ) 的 各 种 系统 。 请 参见 附录 A12 了 解 更 多 信息 。 


2.2.13 CSR 寄存 器 


RISC-V 架构 定义 了 一 些 控制 和 状态 寄存 器 《Control and Status Register, CSR), H FAE 
置 或 记录 一 些 运 行 的 状态 。CSR 寄存 器 是 处 理 器 核 内 部 的 寄存 器 , 使 用 自己 的 地 址 编码 空间 
和 存储 器 寻 址 的 地 址 区 间 完 全 无 关系 。 请 参见 附录 B 了 解 CSR 寄存 器 的 列表 与 详细 信息 。 

CSR 寄存 器 的 访问 采用 专用 的 CSR 指令 ， 包括 CSRRW、CSRRS、CSRRC、CSRRWI、 
CSRRSI 以 及 CSRRCI 指令 。 请 参见 附录 A14.2 节 了 解 相 关 指 令 的 细节 。 


2.2.14. 中断 和 异常 


中 断 和 异常 机 制 往往 是 处 理 器 指令 集 架构 中 最 为 复杂 和 关键 的 部 分 。RISC-V 架构 定义 
了 一 套 相 对 简单 基本 的 中 断 和 异常 机 制 ， 但 是 也 允许 用 户 对 其 进行 定制 和 扩展 。 请 参见 第 
13 章 系 统 地 了 解 RISC-V 中 断 和 异常 机 制 的 详情 。 


2.2.15 ”矢量 指令 子 集 


RISC-V 架构 目前 虽然 还 没有 定型 的 矢量 (Vector) 指令 子 集 , 但 是 从 目前 的 草案 中 可 以 
看 出 ，RISC-V 矢量 指令 子 集 的 设计 理念 非常 先进 。 由 于 后 发 优势 及 借助 矢量 架构 多 年 发 展 
成 熟 的 结论 ，RISC-V 架构 将 使 用 可 变 长 度 的 矢量 ， 而 不 是 矢量 定 长 的 SIMD 指令 集 ( 例 如 
ARM 的 NEON 和 Intel 的 MMX)， 从 而 能 够 灵活 地 文 持 不 同 的 实现 。 退 求 低 功 耗 、 小 面积 
的 CPU 可 以 选择 使 用 长 度 较 短 的 硬件 矢量 进行 实现 ,而 高 性 能 的 CPU 则 可 以 选择 较 长 的 硬 
件 矢量 进行 实现 ， 并 且 同 样 的 软件 代码 能 够 互相 兼容 。 
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结合 当前 人 工 智 能 和 高 性 能 计算 的 强烈 需求 ， 一 种 开放 开源 天 量 指 令 集 的 出 现 ， 倘 大 
能 够 得 到 大 量 的 开源 算法 软件 库 的 支持 ， 必 将 对 产业 界 产 生 非 常 积 极 的 影响 ， 作 者 对 此 非 
前 期 行 。 


2.2.06 ” 自 定 制 指令 扩展 


除了 上 述 曾 述 的 模块 化 指令 子 集 的 可 扩展 、 可 选择 ，RISC-V 架构 还 有 一 个 非常 重要 的 
特性 ， 那 就 是 支持 第 三 方 的 扩展 。 用 户 可 以 扩展 自己 的 指令 子 集 ，RISC-V 预 留 了 大 量 的 指 
令 编码 空间 用 于 用 户 的 自 定 义 扩展 ， 同 时 还 定义 了 4 条 Custom 指令 可 供用 户 直接 使 用 。 每 
条 Custom 指令 都 预 留 了 几 个 比特 位 的 子 编码 空间 ， 因 此 用 户 可 以 直接 使 用 4 条 Custom 指 
令 扩 展 出 几 十 条 自 定义 的 指令 。 

请 参见 第 16 章 了 解 更 多 协 处 理 器 扩展 的 信息 。 


2.2.17 总 结 与 比较 


处 理 器 设计 技术 经 过 几 十 年 的 演进 ， 随 着 大 规模 集成 电路 设计 技术 的 发 展 直 至 今天 , 呈 
现 如 下 特点 。 

e 由 于 高 性 能 处 理 器 的 硬件 调度 能 力 已 经 非常 强劲 且 主 频 很 高 ， 因 此 硬件 设计 希望 指 

令 集 尽 可 能 地 规整 、 简 单 ， 从 而 使 得 处 理 器 可 以 设计 出 更 高 的 主 频 与 更 低 的 面积 。 

e 以 IoT 应 用 为 主 的 极 低 功 耗 处 理 器 更 加 苛求 低 功 耗 与 低 面 积 。 

e 存储 器 的 资源 也 比 早 期 的 RISC 处 理 器 更 加 丰富 。 

以 上 种 种 因素 ， 使 得 很 多 早期 的 RISC 架构 设计 理念 (依据 当时 技术 背景 而 诞生 )， 不 
但 不 能 帮助 现代 处 理 器 设计 ， 反 而 成 了 负担 。 某 些 早期 RISC 架构 定义 的 特性 ， 一 方面 使 得 
高 性 能 处 理 器 的 硬件 设计 束 手 束 脚 ; 男 一 方面 又 使 得 极 低 功 耗 的 处 理 器 人 硬件 设计 背负 不 必要 
的 复杂 度 。 

得 益 于 后 发 优势 ， 全 新 的 RISC-V 架构 能 够 规避 所 有 这 些 已 知 的 负担 ， 同 时 ， 利 用 其 先 
进 的 设计 哲学 ， 设 计 出 一 套 “ 现 代 ” 的 指令 集 。 本 节 再 次 总 结 其 特点 ， 如 表 2-2 所 示 。 


表 2-2 RISC-V 指令 集 架 构 特点 总 结 
模块 化 支持 模块 化 可 配置 的 指令 子 集 
可 扩展 性 支持 可 扩展 定制 指令 
"m. 一 套 指令 集 支持 所 有 架构 。 基 本 指令 子 集 仅 40 余 条 指令 ， 以 此 为 共有 
此 不 兼容 基础 ， 加 上 其 他 常用 模块 子 集 指令 总 指令 数 也 仅 几 十 条 


42 | 大 道 至 简 一 一 RISC-V RAA 


续 表 
硬件 设计 与 编译 器 实现 非常 简单 
。 BU Fd vim dox 
。 存储 器 访问 指令 一 次 只 访问 一 个 元 素 
。 去 除 存 储 器 访问 指令 的 地 址 自 增 自 减 模式 
。 规整 的 指令 编码 格式 
易 实 现 性 硬件 实现 得 复杂 度 高 。 简化 的 分 支 跳 转 指 令 与 静态 预测 机 制 
e 不 使 用 分 支 延 述 权 (Delay Slot) 
。 不 使 用 指令 条 件 码 (Conditional Code) 
。 运算 指令 的 结果 不 产生 异常 (Exception) 
e 16 位 的 压缩 指令 有 其 对 应 的 普通 32 位 指令 
。 不 使 用 零 开 销 硬件 循环 


RISC-V 的 特点 在 于 极 简 、 模 块 化 以 及 可 定制 扩展 ， 通 过 这 些 指令 集 的 组 合 或 者 扩展 ， 


几乎 可 以 构建 适用 于 任何 一 个 领域 的 微 处 理 器 ， 比 如 云 计算 、 存 储 、 并 行 计算 、 虚 拟 化 / 容 
器 、MCU、 应 用 处 理 器 和 DSP 处 理 器 等 。 





2.3 EIER UE RH 


在 本 章 的 介绍 中 已 反复 提 到 软件 生态 对 于 CPU 的 重要 性 , 是 运行 于 CPU 之 上 的 软件 赋 
予 了 CPU 以 生命 与 灵魂 ， 而 软件 工具 链 的 完备 则 是 CPU 能 够 真正 运行 的 第 一 步 。 

作为 一 种 开放 免费 的 架构 ，RISC-V 的 软件 工具 链 由 开源 社区 维护 ， 所 有 的 工具 链 源 代 
码 均 公开 。 可 以 通过 RISC-V 基金 会 网 站 进入 RISC-V Tools, WA 2-5 所 示 。 


CO nm on dirtats C visit riser on Github 


riscv-tools mosen 


`. Quickstart 
2 Yhe WSOY GCO New tesioaln imitadatios Manusi 
7 fhe Li RISC-V Imttalidlita WA 


* References 


Quickstart 





ve 


2-5 ”基金 会 网 站 RISC-V Tools 页 面 


2.3 RISC-V 软 件 工具 链 |43 


riscv-tools 的 源 代 码 在 GitHub 上 被 维护 成 一 个 宏 项 目 〈 详 情 请 在 GitHub 中 搜索 
“riscv-tools”)， 其 包含 了 所 有 RISC-V 相关 工具 链 、 仿真 器 和 测试 套件 等 子 项 目 ， 如 图 2-6 所 示 。 


We H Aar —— 165 WMiwk to 


LJ 


Join GitHub today 
Gatiub is nome to over Z0 miken cevelopen, Works tegetherto hort amd 


B ome daiwan tommtisd oo Gitfub Mieroe pull remues 9533 (rom timufsmurp-Dpsnocd 


ag necem gi ose? 

I ogan calconn dr eset ?4 
B isvan d 331053) 

ln vods D fcet 

Ma cor óopanáes O batt? 

Bg cae ooenoci @ 48c2264 


fa iov A 2dce22 





Ra ooo mes O $:9$0638 


[d 2-6 GitHub 上 的 risev-tools 项 目 


(1) riscv-fesvr 是 一 个 用 于 实现 上 位 机 和 CPU 之 间 通 信 机 制 的 库 ; riscv-pk 提供 RISC-V 可 
执行 文件 运行 的 程序 运行 环境 ， 同 时 提供 最 简单 的 bootloader; riscv-isa-sim 是 一 个 基于 C/C++ 
开发 的 指令 集 模拟 器 ， 其 还 有 一 个 更 通俗 和 为 人 所 熟知 的 名 字 “Spike”。riscv-fesvr、riscv-pk 和 
riscv-isa-sim 这 3 个 工具 协作 在 一 起 ， 可 以 用 于 在 Spike 模拟 器 上 运行 一 个 完整 的 程序 。 

(2) riscv-gnu-toolchain 是 支持 RISC-V 的 GNU 工具 链 ， 包 含 了 以 下 内 容 。 


riscv-gcc: GCC 编译 器 。 
riscv-binutils-gdb: 二 进 制 工具 《链接 器 ， 汇 编 器 等 )、GDB 调试 工具 等 。 
riscv-glibc: GNU C 标准 库 实现 。 


AR GNU 工具 链 的 更 多 信息 请 读者 目 行 得 阅 。 


riscv-llvm 是 一 个 基于 LLVM 编译 器 的 框架 ， 有 关 LLVM 的 更 多 信息 请 读者 自行 查阅 。 
riscv-openocd 是 一 个 基于 OpenOCD 的 RISC-V 调试 器 (Debugger) 软件 ， 请 参见 第 
19.4 节 了 解 更 多 OpenOCD 的 信息 。 

riscv-opcodes 是 一 个 RISC-V 操作 码 信息 转换 脚本 。 

riscv-tests 是 一 组 RISC-V 指令 集 测 试用 例 。 

riscv-qemu 是 一 个 支持 RISC-V 的 QEMU 模拟 器 , 有 关 QEMU 模拟 器 的 更 多 信息 请 
读者 自行 查阅 。 
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如 需 使 用 RISC-V 的 工具 链 ， 除 了 按照 GitHub 上 的 说 明 下 载 源 代码 进行 编译 生成 之 外 ， 
还 可 以 在 网 络 上 直接 下 载 已 经 预先 编译 好 的 GNU 工具 链 和 Windows IDE 开发 工具 , 请 参见 
第 19.3 节 和 第 19.5 节 了 解 相 关 信 息 。 





2.4 RISC-V 和 其 他 开放 架构 有 何不 同 


如 果 仅 从 “免费 ”或 “开放 ”这 两 点 来 评判 ，RISC-V 架构 并 不 是 第 一 个 做 到 免费 或 开 
放 的 处 理 器 架构 。 

下 面 将 通过 论述 几 个 具有 代表 性 的 开放 架构 ， 来 分 析 RISC-V 架构 的 不 同 之 处 以 及 为 什 
么 其 他 开放 架构 没 能 取得 足够 的 成 功 。 


2.4.1 平民 类 雄一 一 OpenRISC 


OpenRISC 是 OpenCores 组 织 提供 的 基于 GPL 协议 的 开放 源 代码 RISC 处 理 器 ， 它 具有 
以 下 特点 。 

e 采用 免费 开放 的 32/64 位 RISC 架构 。 

e 用 Verilog HDL 《〈 硬 件 描述 语言 ) 实现 了 基于 该 架构 的 处 理 器 源 代 码 。 

。 具有 完整 的 工具 链 。 

OpenRISC 被 应 用 到 很 多 公司 的 项 目 之 中 ， 可 以 说 ，OpenRISC 是 应 用 非常 广泛 的 一 种 
开源 处 理 器 实现 。 

OpenRISC 的 不 足 之 处 在 于 其 侧重 实现 一 种 开源 的 CPU Core; 而 非 立 足 于 定义 一 种 开放 
的 指令 集 架 构 ， 因 此 其 架构 的 发 展 不 够 完整 。 指 令 集 的 定义 也 不 具备 上 节 中 提 到 的 RISC-V 
架构 的 优点 ， 更 加 没有 上 升 到 成 立 专门 的 基金 会 组 织 的 高 度 。OpenRISC 更 多 的 时 候 被 认为 
是 一 个 开源 的 处 理 器 核 ， 而 非 一 种 优美 的 指令 集 架构 。 此 外 ，OpenRISC 的 许可 证 为 GPL， 
这 意味 着 所 有 的 指令 集 改 动 都 必须 开源 (而 RISC-V 则 无 此 约束 )。 


2.4.2 Zil SPARC 


在 第 1 章 中 已 介绍 过 SPARC 架构 , 作为 经 典 的 RISC 微 处 理 器 架构 之 一 , SPARC F 1985 
年 由 Sun 公司 所 设计 。SPARC 也 是 SPARC 国际 公司 的 注册 商标 之 一 ，SPARC 公司 于 1989 
年 成 立 ， 目 的 是 癌 外 界 推广 SPARC 架构 以 及 为 该 架构 进行 兼容 性 测试 。 该 公司 为 了 推广 
SPARC 的 生态 系统 ， 将 标准 开放 ， 并 授权 予 多 家 生产 商 使 用 ， 包 括 德州 仪器 、Cypress 半 导 
体 和 富士 通 等 。 由 于 SPARC 架构 也 对 外 完全 开放 ， 因 此 也 出 现 了 完全 开放 源码 的 LEON 处 
理 器 (参见 第 1.1.4 节 的 介绍 )。 不 仅 如 此 ，Sun 公司 还 于 1994 年 推动 SPARC v8 架构 成 为 
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IEEE 标准 (IEEE Standard 1754-1994). 

在 第 1 章 中 介绍 过 ， 由 于 SPARC 架构 的 初 囊 是 面 同 服务 器 领域 ， 其 最 大 的 特点 是 拥有 
一 个 大 型 的 寄存 器 窗口 , 符合 SPARC 架构 的 处 理 器 需要 实现 从 72 到 640 个 之 多 的 通用 寄存 
器 ， 每 个 寄存 器 宽度 为 64bits， 组 成 一 系列 的 寄存 器 组 ， 称 为 寄存 器 窗口 。 这 种 寄存 器 窗口 
的 染 构 ， 由 于 可 以 切换 不 同 的 寄存 器 组 快速 地 响应 函数 调用 与 返回 ， 因此 能 够 产生 非常 高 的 
性 能 ， 但 是 这 种 架构 由 于 功 耗 面积 代价 太 大 ， 而 并 不 适用 于 PC 与 艇 入 式 领域 处 理 器 。 而 
SPARC 架构 也 不 具备 模块 化 的 特点 ， 使 用 户 无 法 裁剪 和 选择 。 很 难 作为 一 种 通用 的 处 理 器 
架构 对 商用 的 x86 和 ARM 架构 形成 蔡 代 。 设 计 这 种 超大 服务 器 CPU 必 片 又 非 普 通 公司 与 
个 人 所 能 完成 ， 而 有 能 力 设 计 这 种 大 型 CPU 的 公司 也 没有 必要 投入 巨大 的 成 本 来 挑战 x86 
的 统治 地 位 。 随 着 Sun 公司 的 衰弱 ，SPARC 架构 现在 基本 上 退出 了 人 们 的 视野 。 


2.4.3 ”名 校 优生 一 一 RISC-V 


在 第 1.5 节 介 绍 了 RISC-V 在 伯克利 诞生 的 经 历 ， 本 节 在 此 不 做 装 述 。 

因为 多 年 来 在 CPU 领域 已 经 出 现 过 多 个 免费 或 开放 的 架构 ， 很 多 高 校 也 在 科研 项 目 中 
推出 过 多 种 指令 集 架构 。 因 此 当 作者 第 一 次 昕 说 RISC-V 时 ， 以 为 又 是 一 个 玩具 ， 或 纯粹 学 
术 性 质 的 科研 项 目 而 不 以 为 意 。 

直到 作者 通读 了 RISC-V 的 架构 文档 ， 不 禁 为 其 先进 的 设计 理念 所 折服 。 同 时 ，RISC-V 
架构 的 各 种 优点 也 得 到 了 众多 专业 人 士 的 青睐 、 好 评 和 众多 商业 公司 的 相继 加 盟 。 并 且 2016 
年 RISC-V 基金 会 的 正式 启动 在 业界 引起 了 不 小 的 影响 。 如 此 种 种 ， 使 得 RISC-V 成 为 至 今 
为 止 最 具 革 命 性 意义 的 开放 处 理 器 架构 。 

有 兴趣 的 读者 可 以 自行 到 网 络 中 查阅 文章 《RISC-V 登场 ，Intel 和 ARM 会 怕 吗 》《 直 指 
移动 芯片 市 场 ,开源 的 处 理 器 指令 集 架 构 发 布 》 和 《三 星 开发 RISC-V 架构 自主 CPU 内 核 》。 


盘点 RISC-V 商业 版 本 与 开源 版 本 
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在 第 1.5 节 和 第 2 章 介 绍 了 RISC-V 架构 的 诞生 和 特点 , 注意 : RISC-V 是 一 种 开放 的 指 
令 集 架 构 ， 而 不 是 一 款 具 体 的 处 理 器 。 任何 组 织 与 个 人 均 可 以 依据 RISC-V 架构 设计 实现 自 
己 的 处 理 器 ， 或 是 高 性 能 处 理 器 ， 抑 或 是 低 功 耗 处 理 器 。 只 要 是 依据 RISC-V 架构 而 设计 的 
处 理 器 ， 都 可 以 称 为 RISC-V 架构 处 理 器 。 

自从 RISC-V 架构 诞生 以 来 ， 在 全 世界 范围 内 已 经 出 现 了 数 十 个 版 本 的 RISC-V 架构 处 
理 器 ， 有 的 是 开源 免费 的 ， 有 的 是 商业 公司 私有 开发 用 于 内 部 项 目的 ， 还 有 的 是 商业 IP A 
司 开发 的 RISC-V 处 理 器 IP。 本 章 将 挑选 几 款 比较 知名 开源 免费 RISC-V 处 理 器 (或 SoC) 
和 商业 公司 开发 的 RISC-V 处 理 器 IP， 一 一 加 以 简 述 。 

由 于 基于 开放 RISC-V 架构 的 处 理 器 在 不 断 涌现 ， 待 本 书 成 书 之 时 ， 有 可 能 已 经 出 现 了 
更 多 知名 的 RISC-V 处 理 器 ， 因 此 本 书 难 免 有 信息 不 足 之 处 ， 请 读者 自行 查阅 互联 网 更 新 。 


3.1 EFM EE 


注意 ; 本 节 对 不 同 处 理 器 版 本 的 介绍 中 将 使 用 许多 处 理 器 的 关键 特性 参数 或 名 称 ， 对 于 
完全 不 了 解 CPU 的 初学 者 而 言 可 能 难以 理解 ， 请 参见 本 书 第 二 部 分 与 第 三 部 分 中 的 各 章节 
进行 系统 学 习 后 ， 再 行 理解 本 节 。 


3.1.1 Rocket Core (JFF) 


Rocket Core 是 伯克利 开发 的 一 款 开源 RISC-V 处 理 器 核 ， 可 以 由 伯克利 开发 的 SoC ^E 
成 器 Rocket-Chip ^E X. 注意 区 分 Rocket Core 与 Rocket-Chip, Rocket Core 是 一 款 处 理 器 核 ; 
Rocket-Chip 是 一 蒜 SoC 生成 器 ， 用 于 生成 若干 们 克利 开发 的 处 理 露 核 ， 包 括 Rocket Core 和 
BOOM Core。 本 节 主 要 介绍 Rocket Core， 而 BOOM Core 将 在 第 3.1.2 节 介 绍 。 

Rocket Core 是 一 球 64 位 的 处 理 器 ， 结 构 如 图 3-1 所 示 ， 具 有 如 下 特点 。 

。 具备 可 配置 性 ， 支 持 多 种 RISC-V 的 指令 集 扩 展 组 合 。 

o 按 序 发 射 按 序 执行 的 五 级 流水 线 。 

。 配备 完整 的 指令 Cache 和 数据 Cache. 

。 配备 64 个 深度 (Entries) 的 分 支 目 标 绥 存 (Branch Target Buffer, BTB). 

。 配备 256 MNRE (Entries) 的 分 支 历 史 表 (Branch History Table, BHT). 

。 配备 2 个 深度 (Entries) 的 返回 地 址 堆栈 (Return Address Stack, RAS). 

。 配备 内 存 管理 单元 (Memory Management Unit, MMU) 以 支持 操作 系统 。 

。 配备 硬件 浮 点 单元 。 

e。 配备 可 扩展 指令 接口 (Rocket Custom Coprocessor, RoCC) 可 供用 户 扩 展 协 处 理 器 指令 。 
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F ID MEM 


PC | EX WB 
Bc ITLB eun To RoCC 
Gen. nt EX Accelerator 
Access Decode Access 


图 3-1 Rocket Core 的 流水 线 结构 示意 图 


据 称 伯克利 使 用 Rocket Core 已 经 成 功 地 进行 了 高 达 11 次 的 投 片 , 并 且 在 必 片 原型 上 成 
功 地 运行 了 Linux 操作 系统 。 

Rocket Core 性 能 和 面积 等 参数 非常 具有 竞争 力 ， 伯 克利 将 Rocket Core 与 ARM Cortex-A5 
进行 了 对 比 。 值 得 注意 的 是 ，Rocket Core 是 64 位 的 架构 ， 而 Cortex-A5 是 32 位 架构 ， 理 论 
上 64 位 架构 处 理 器 面积 和 功 耗 应 该 远 高 于 32 位 架构 的 处 理 器 ， 但 是 如 图 3-2 所 示 ，Rocket 
Core 与 ARM Cortex-A5 相 比 性 能 大 幅 增 加 ， 而 面积 功 耗 却 更 小 。 





Category ARM Cortex-A5 — — .RISC-V Rocket 


BA ^ | ^ c 3BEARMVA n OPE RISCV v 

Architecture Single-Issue |In-Order ^ Single-Issue In-Order 5-stage 
Performance 1.57 DMIPS/MHz 1.72 DMIPS/MHz 

Process TSMC AO0GPLUS TSMC 40GPLUS 

Area w/o Caches 0.27 mm? 014mm? 

Area with 16K Caches 0.53 mm? 0.39 mm? 

Area Efficiency |. 2.96 DMIPS/MHz/mm? 4.41 DMIPS/MHz/ mm? 
Frequency >1 GHz »1GHz 

Dynamic Power ^ «0.08mW/MHz — . 0.034mW/MHz 


图 3-2 Rocket Core 与 Cortex-A5 参数 对 比 


由 于 Rocket Core 是 伯克利 推出 RISC-V 架构 时 ， 同 时 推出 的 开源 处 理 器 核 ， 可 以 说 是 目 
前 知名 的 开源 RISC-V Core， 有 很 多 的 公司 与 个 人 均 在 使 用 该 球 处 理 器 进行 研究 或 者 开 友 产 
品 。 感 兴趣 的 用 户 可 以 在 GitHub 上 使 用 Rocket-Chip 项 目 编译 出 Rocket Core 自行 了 解 。 

Rocket Core 的 最 大 特点 是 使 用 Chisel (Constructing Hardware in an ScalaEmbedded 
Language) 语言 进行 开发 ， 这 是 伯克利 大 学 设计 的 一 种 开源 高 层次 硬件 描述 语言 ， 其 抽象 层 
次 比 主流 的 硬件 描述 语言 Verilog 要 高 出 许多 。Chisel 采用 了 面向 对 象 ， 类 似 于 Java 一 样 的 
高 层次 抽象 方式 描述 电路 。 这 种 高 层 描述 语言 可 以 被 其 工具 转换 为 Verilog 的 RTL 代码 ， 或 
者 周期 精确 的 C/C++ 仿真 模型 。Chisel 的 优点 是 得 益 于 其 面 同 对 象 的 特性 ， 具 有 更 好 的 可 扩 
展 性 与 可 重用 性 。 正 是 因为 得 益 于 使 用 了 Chisel 语言 ，Rocket Core 具备 相当 程度 的 可 配置 
性 ， 而 如 果 使 用 普通 的 Verilog 语言 开发 很 难 达 到 这 样 高 度 的 可 配置 型 和 代码 的 可 维护 性 。 

但 是 每 一 枚 硬币 都 有 其 两 面 性 ，Chisel 语言 虽 抽 象 层 次 更 高 ， 但 其 转换 出 来 的 Verilog 
代码 由 于 是 机 器 生成 ， 其 代码 类 似 于 电路 网 表 一 般 ， 几 乎 没有 可 读 性 ， 这 给 像 作 者 这 样 的 用 
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户 造 成 了 很 大 的 困扰 。 而 Chisel 语言 的 学 习 曲 线 又 非常 陡峭 ， 难 度 很 大 ， 绝 大 多 数 芯 片 工 程 
师 无 法 看 懂 ， 且 在 繁忙 的 工作 中 没有 时 间 来 重新 学 习 这 么 一 门 非常 有 难度 的 新 语言 。 由 于 硬 
件 工 程 师 无 法 读 懂 这 种 机 器 生成 代码 ， 给 后 续 的 ASIC 流程 工作 也 带 来 了 一 些 麻 烦 。 因 此 可 
以 说 是 喜忧参半 ，Rocket Core 是 一 款 非 常 优秀 的 处 理 器 ， 但 是 在 相当 长 一 段 时 间 内 ， 作 者 
对 于 使 用 Chisel 语言 开发 硬件 将 持 非常 保守 的 态度 。 


3.1.2 BOOM Core (FFE) 


如 上 一 节 所 述 ，BOOM Core 也 是 伯克利 开发 的 一 款 开 源 RISC-V 处 理 器 核 ， 其 也 是 使 
用 Chisel 语言 开发 的 ， 同 样 需要 由 伯克利 开发 的 SoC 生成 器 Rocket-Chip 生成 。 

BOOM 的 全 称 为 Berkeley Out-of-Order Machine， 与 Rocket Core 不 同 的 是 ，BOOM Core 
面向 更 高 的 性 能 目标 ， 是 一 款 超标 量 乱 序 发 射 、 乱 序 执行 的 处 理 器 核 。 它 也 配备 了 高 性 能 的 
分 支 预测 器 ， 指 令 Cache 与 数据 Cache 和 硬件 浮 点 运算 单元 ， 并 且 还 支持 多 核 结 构 ， 二 级 
(Level-2) Cache 和 多 核 Cache 一 致 性 (Coherency)， 其 流水 线 结构 如 图 3-3 所 示 ， 感 兴趣 的 
用 户 可 以 在 GitHub 上 了 解 其 源 代码 。 





图 3-3 BOOM Core 的 流水 线 结构 图 


BOOM Core 性 能 和 面积 等 参数 同样 非 
常 具 有 竞争 力 ， 伯 克利 将 BOOM Core 与 





ARM Cortex-A9 进行 了 对 比 。 同 样 值得 注意 ai [RN DA MM. retia diei QU. 
的 是 ，BOOM Core 是 64 位 的 染 构 ， 而 Performance 3.59 CoreMarks/MHz 4.61 CoreMarks/MHz 
Cortex-A9 是 32 位 架构 ， 理 论 上 64 位 架构 a h aae 放 < 
处 理 器 面积 和 功 耗 应 该 远 高 于 32 位 架构 的 ee 1.00 mm 

处 理 器 ， 但 是 如 图 3-4 所 示 ，BOOM Core ioo IR eic act essc] icd e pam 
Ej ARM Cortex-A9 JH EE, 性 能 大 幅 增 加 ， 而 eK TIUMTTM TS 


面积 功 耗 却 更 小 。 3-4 BOOM Core 5 Cortex-A9 参数 对 比 
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3.1.3 Freedom SoC (开源 ) 


Freedom Everywhere SoC 是 由 SiFive 公司 推出 的 一 款 开 源 SoC。SiFive 公司 是 由 伯克利 
几 个 主要 的 RISC-V 发 起 人 所 创办 , E fEXETT RISC-V 架构 的 处 理 器 开发 与 服务 的 商业 公司 。 

Freedom Everywhere E310 SoC 是 本 书 将 要 重点 介绍 的 SoC， 请 参阅 第 18 章 了 解 此 SoC 
的 详细 信息 。 


3.1.4 LowRISC SoC (FI) 


LowRISC 是 一 个 非 营利 组 织 ， 同 时 也 是 由 剑桥 大 学 的 开发 者 基于 Rocket Core 而 开发 的 
一 款 开 源 SoC 平台 名 称 。LowRISC 组 织 的 口号 是 希望 成 为 “硬件 世界 的 Linux (Linux of the 
hardware world)”， 目 标 是 提供 高 质量 、 安 全 、 开 放 的 平台 ， 计 划 将 实际 量 产 心 片 并 提供 低 
成 本 的 开发 板 ， 其 详情 可 以 从 其 官网 获得 。 


3.1.5 PULPino Core and SoC (开源 ) 


PULPino 是 由 苏黎世 瑞士 联邦 理工 学 院 (ETH Zurich) 开发 的 一 款 开源 的 单 核 MCU SoC 
平台 , 同时 ETH Zurich 还 开发 了 配套 的 多 款 32 位 RISC-V 处 理 器 核 , 分 别 是 RISCY、Zero-riscy 
和 Micro-riscy o 

RISCY 是 一 款 四 级 流水 线 ， 按 序 单 发 射 的 处 理 器 ， 支 持 标 准 的 RV32I 指令 子 集 ， 同 时 
可 以 配置 压缩 指令 子 集 (RV32C)、 乘 除法 指令 子 集 (RV32M) 以 及 单 精度 浮 点 指令 子 集 
(RV32F)。 除 此 之 外 ，ETH Zurich 增加 了 很 多 自 定义 指令 用 于 低 功 耗 的 DSP 应 用 。 这 些 指 
令 包 括 硬 件 协助 的 循环 C Hardware Loop )、 带 地 址 自 增 自 减 的 存储 器 访问 指令 
(Post-incrementing load and store instructions)、 比 特 操 作 (Bit-manipulation )、 乘 累加 CMAC), 
定点 操作 CFixed-point operations) 和 SIMD 指令 等 。 

Zero-riscy 是 一 款 二 级 流水 线 ， 按 序 单 发 射 的 处 理 器 ， 它 支持 标准 的 RV32I 指令 子 集 ， 
同时 可 以 配置 压缩 指令 子 集 (RV32C)、 乘 除法 指令 子 集 (RV32M)， 还 可 以 被 配置 成 16 个 
通用 寄存 器 版 本 的 RV32E。 该 处 理 器 核 主 要 面向 的 是 超 低 功 耗 、 超 小 面积 的 场景 。 

Micro-riscy 是 一 款 更 加 小 面积 的 处 理 器 核 ， 它 仅 支 持 16 个 通用 寄存 器 版 本 的 RV32EC 
架构 ， 并 且 没 有 硬件 的 乘除 法 单元 ， 其 面积 小 于 12K ME]. 

RISCY、Zero-riscy 和 Micro-riscy 的 面积 对 比如 图 3-5 所 示 。 

感 兴趣 的 读者 可 以 访问 PULPino 的 网 站 ， 有 丰富 的 信息 与 文档 可 以 免费 下 载 。 
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Area [KGE] 





RISCY Zero-riscy Micro-riscy 
图 3-5 RISCY, Zero-riscy 和 Micro-riscy 的 面积 对 比 


3.1.6 PicoRV32 Core (开源 ) 


PicoRV32 是 一 款 由 著名 的 IC 设计 师 Clifford Wolf 开 发 并 开源 的 一 款 RISC-V 处 理 器 核 。 
Clifford Wolf 由 于 撰写 多 篇 知名 的 数字 IC 设计 论文 而 被 人 所 熟知 。 这 款 PicoRV32 的 重点 在 
于 追求 面积 和 频率 的 优化 ,其 公布 的 数据 在 Xilinx7-Series FPGA 上 的 开销 为 750-2000 LUTS, 
并 且 能 够 综合 到 250—450MHz 的 主 频 。 但 是 此 处 理 器 核 明确 说 明 它 是 为 面积 做 优化 ， 而 非 
为 性 能 做 优化 ， 因 此 其 性 能 并 不 是 很 理想 ， 平 均 每 条 指令 的 周期 数 (Average cycles Per 
Instruction, CPI) 大 约 在 4 个 周期 ，Dhrystone 的 跑 分 结果 也 仅 为 0.521 DMIPS/MHz。 


3.1.7 SCR1 Core (开源 ) 


SCRI 是 一 款 由 Syntacore 公司 使 用 System Verilog 1& zi Weil 53 HJ — SA DIT FEAT VR 
RISC-V 处 理 器 核 。Syntacore 是 一 家 俄罗斯 公司 ， 专 注 于 为 客户 定制 开发 和 授权 具有 高 能 效 
比 的 可 综合 可 编程 处 理 器 核 。Syntacore 公司 基于 RISC-V 架构 开发 了 多 球 针 对 MCU 级 别 的 
处 理 器 核 ， 被 称 为 SCRx 系列 ， 并 将 其 中 的 最 简单 蒜 SCRI 开源 。 

SCRI 具有 可 配置 的 特性 ， 可 以 配置 为 RV32IEMC 指令 子 集 的 组 合 , 最 小 配置 RV32EC 
的 面积 开销 为 12K 个 逻辑 门 ， 最 高 的 RV321MC 配置 面积 开销 为 28K 左右 个 逻辑 门 。SCRI1 
仅 支 持 机 器 模式 ， 同 时 还 配备 了 可 选 的 中 断 控制 器 与 调试 (Debugger) 模块 。 


3.1.8 ORCA Core (FR) 


ORCA 是 一 款 由 Vectorblox 公司 使 用 VHDL 语言 设计 编写 的 面 癌 FPGA 的 开源 RISC-V 处 
理 器 核 ， 可 以 配置 成 为 RV32I 或 者 RV32M。 虽 然 ORCA 也 可 以 作为 一 种 单独 的 处 理 器 核 使 用 ， 
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但 是 其 诞生 初衷 是 为 了 能 够 作为 主 控制 处 理 器 和 Vectorblox 公司 的 商用 协 处 理 器 适 配 使 用 。 


3.1.9 Andes Core 〈 商 业 IP) 


唱 心 科技 (Andes) 是 专注 于 提供 处 理 器 IP 的 一 家 公司 ， 其 商业 模式 与 ARM 这 样 的 处 
理 器 IP 公司 相同 。Andes 有 其 目 有 的 处 理 器 指令 集 架 构 ， 且 由 于 其 可 观 的 出 货 量 ， 一 直 是 
商用 主流 CPU IP 公司 之 一 。2016 年 的 统计 数字 显示 ， 采用 Andes 指令 集 架 构 的 系统 芯片 出 
货 量 超过 4.3 亿 颗 ， 总 累计 出 货 量 超 过 19 亿 颗 。 

Andes 于 2017 年 初 发 布 最 新 一 代 的 AndeStar 处 理 器 架构 ， 开 始 使 用 RISC-V 指令 集 ， 
成 为 商用 主流 CPU IP 公司 中 第 一 家 采用 RISC-V 指令 集 架 构 的 公司 。 在 Andes 的 介绍 中 表 
示 ，AndeStarV5 架构 不 但 将 RISC-V 兼容 性 完全 纳入 ， 同 时 也 包含 多 项 Andes 独创 的 通用 便 
利 功能 及 应 用 强化 单元 。 

作为 一 个 有 多 年 历史 的 商用 主流 CPU IP 公司 ， 其 在 下 一 代 的 主要 架构 中 开始 全 面 采 用 
RISC-V 架构 ， 具 有 非常 重要 的 代表 意义 。 


3.1.10 Microsemi Core (商业 IP) 


Microsemi 公司 的 FPGA 由 于 其 高 可 靠 性 被 人 所 熟知 ， 被 广泛 应 用 于 对 可 靠 性 要 求 苛刻 
的 场景 。Microsemi 也 是 最 早 支 持 并 使 用 RISC-V 处 理 器 的 公司 之 一 。 推 出 了 业界 首 个 基于 
RISC-V 内 核 的 FPGA 系列 产品 , 即 IGLOO2 FPGA、SmartFusion2 SoC FPGA 或 RTG4 FPGA., 
Microsemi 称 完全 开源 的 RV32IM RISC-V 内 核 采 用 开放 式 指 令 集 架构 具备 全 面 可 移植 性 , 而 
且 由 于 开发 人 员 可 以 查看 RISC-V 的 所 有 源码 ， 因 此 安全 性 更 高 ， 再 加 上 Microsemi 产品 一 
癌 出 色 的 功 耗 与 可 靠 性 指标 ， 非 常 适 合 现在 典 入 式 应 用 对 于 平台 架构 的 要 求 。 

在 Microsemi 的 介绍 中 表示 ， 集 成 RISC-V 内 核 的 FPGA 的 特色 主要 是 在 开放 性 、 可 移 
植 性 和 设计 灵活 性 方面 表现 得 更 好 。RISC-V 内 核 特 别 适 合 高 效 的 设计 实现 ， 开 发 人 员 可 以 
根据 应 用 需求 灵活 裁 前 。 如 今 RISC-V 指令 集 已 经 固定 ， 全 部 RISC-V 指令 不 超过 $0 个 ， 因 
此 RISC-V 内 核 面 积 更 小 ， 从 而 使 得 整体 芯片 成 本 更 低 ， 内 核 越 小 ， 相 应 的 功 耗 也 就 越 低 。 
相 比 MCU 或 集成 商用 处 理 器 核 的 FPGA,RISC-V 内 核 的 FPGA 最 大 的 优势 之 一 就 是 可 移植 
性 。 采 用 FPGA 来 开发 新 应 用 能 够 快速 上 市 ， 如 果 该 应 用 成 熟 以 后 有 足够 多 的 量 ， 那 么 可 以 
将 FPGA 改 为 专用 芯片 来 降低 成 本 。 采 用 ARM 核 就 没 这 么 方便 了 ， 不 支付 一 笔 价 格 不 菲 的 
工程 费用 和 专利 费 是 无 法 完成 的 。RISC-V 的 开放 性 也 是 一 大 优点 ， 采 用 ARM 等 封闭 式 架 
构 内 核 的 平台 ， 开 发 人 员 看 不 到 源 代码 ， 所 以 无 法 了 解 门 级 电路 设计 细节 。 但 RISC-V 的 用 
户 可 以 查看 内 核 的 所 有 细节 ,可 以 检查 每 一 行 代码 以 确定 系统 的 安全 ， 甚 至 根据 需要 定制 自 
己 的 安全 模块 。 
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3.1.11 Codasip Core (œl IP) 


Codasip 是 一 家 拥有 多 年 经 验 专注 于 为 散 入 式 IoT 领域 定制 处 理 器 核 提 供 处 理 器 IP 和 服 
务 的 公司 ，Codasip 是 最 早 正式 设计 并 提供 商用 RISC-V 处 理 器 IP 的 公司 之 一 。 目 前 该 公司 
提供 Codix-BK Processor IP， 支 持 多 种 的 指令 子 集 配 置 可 定制 指令 接口 。 其 中 Codix-BK3 是 
一 款 三 级 流水 线 的 32 位 处 理 器 Codix-BK5 是 一 款 五 级 流水 线 的 处 理 器 ， 可 以 配置 为 32 位 
或 者 64 位 ， 同 时 还 支持 硬件 单 精度 浮 点 运算 器 。 


3.1.12 ”蜂鸟 E200 Core 5 SoC (开源 ) 


在 上 述 的 各 小 节 中 ， 我们 了 解 了 诸多 的 开源 与 商用 RISC-V 处 理 器 核 ， 既 有 特点 ， 也 有 
B Ee 

本 书 将 介绍 一 款 独 特 的 开源 RISC-V 处 理 器 核 和 配套 SoC 一 一 蜂鸟 E200 系列 处 理 器 核 
与 SoC， 它 有 效 地 克服 了 当前 开源 处 理 器 的 诸多 缺点 。 请 参见 第 4 章 了 解 更 多 详情 。 


四 


得 益 于 RISC-V 开放 免费 的 特点 ， 全 球 在 极 短 的 时 间 内 便 涌 现 出 了 众多 版 本 的 RISC-V 
处 理 器 核 ， 有 道 是 “ 乱 花 渐 欲 迷人 眼 ， 浅 草 才能 没 马蹄 ”。 各 开源 处 理 器 都 有 什么 优 缺 点 ? 
蜂鸟 E200 开源 处 理 器 系列 又 有 何 过 人 之 处 呢 ? 欲 闻 其 详 ， 且 看 下 一 章 详 细 分 解 。 


第 4 章 开源 RISC-V 一 一 
5 E200 系列 超 低 功 耗 Core 与 SoC 


小 个 子 有 大 力量 
y 
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蜂鸟 E200 系列 处 理 器 由 作者 所 在 的 公司 开发 ， 是 一 球 开 源 RISC-V 处 理 器 。 蜂 鸟 是 世 
界 上 最 小 的 乌 类 ， 其 体积 虽 小 ， 却 有 着 极 高 的 速度 与 敏锐 度 ， 可 以 说 是 “能 效 比 ”最 高 的 乌 
类 。 E200 系列 以 蜂 乌 命名 便 寓意 于 此 , 旨 在 将 其 打造 成 为 一 款 世界 上 最 高 能 效 比 的 RISC 处 
Hi. 

注意 : 本 章 对 蜂鸟 E200 处 理 器 的 介绍 将 使 用 许多 处 理 器 的 关键 特性 参数 或 名 称 ， 对 于 
完全 不 了 解 CPU 的 初学 者 而 言 可 能 难以 理解 ， 请 参见 本 书 第 二 部 分 与 第 三 部 分 的 各 章节 进 
行 系统 学 习 后 再 行 理 解 本 章 。 
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在 第 3 章 中 介绍 了 诸多 的 开源 与 商用 RISC-V 处 理 器 核 ， 对 于 商业 公司 提供 的 付费 IP 
本 文 不 加 以 评述 ， 但 是 对 于 众多 开源 实现 加 以 分 析 ， 可 以 发 现 如 下 现象 。 

。 目前 开源 的 RISC-V 实现 主要 以 国外 为 主 ， 难 以 取得 本 土 开发 人 员 的 交流 和 支持 。 

e 面向 IoT 领域 的 高 性 能 且 超 低 功 耗 的 开源 RISC-V 处 理 器 ， 可 以 选择 的 并 不 多 ， 能 

效 表现 也 难以 对 目前 IoT 领域 的 主流 商用 ARM Cortex-M 系列 处 理 器 (2 级 或 者 3 
级 流水 线 实 现 ) 形成 有 效 的 替代 。 

e 绝 大 多 数 的 开源 处 理 器 仅 提 供 处 理 器 核 的 实现 ， 没 有 提供 配套 SoC 和 软件 示例 ， 用 
户 若 要 将 其 使 用 起 来 ， 且 移植 完整 软件 需要 额外 付出 不 小 的 努力 。 

e 大 多 数 的 开源 实现 或 来 自 个 人 爱好 者 或 来 目 高 校 。 其 开发 语言 或 使 用 VHDL， 或 使 
用 System Verilog。 来 目 产 业界 工程 团队 ， 且 使 用 最 稳健 的 Verilog RTL 实现 的 开源 
RISC-V 处 理 器 尚 不 多 见 。 

。 有 些 开源 RISC-V 处 理 器 使 用 高 级 的 Chisel 语言 转换 生成 Verilog RTL 代码 ， 造 成 代 
码 可 读 性 很 差 ， 给 业界 只 熟悉 Verilog 的 芯片 工程 师 使 用 造成 了 困难 。 

e 绝 大 多 数 开源 处 理 器 仅 提 供 处 理 器 核 的 实现 ， 但 是 并 没有 提供 调试 方案 的 实现 ， 很 
少 有 开源 处 理 器 能 够 支持 完整 的 GDB 交互 调试 功能 。 

e 绝 大 多 数 开 源 处 理 器 均 文档 比较 匮乏 。 

以 上 是 许多 国内 用 户 接 触 RISC-V 并 选择 超 低 功 耗 开 源 处 理 器 核 时 遇 到 的 困难 。 蜂 鸟 
E200 系列 处 理 器 可 有 效 解 决 以 上 这 些 问 题 , 与 其 他 的 RISC-V 开源 处 理 器 实现 相 比 , CRS 
如 下 显著 特点 。 

。 蜂鸟 E200 系列 是 一 个 开源 的 RISC-V 处 理 器 。 蜂 鸟 E200 系列 由 中 国 大 陆 研发 团队 

开发 ， 用 户 能 够 轻松 与 开发 人 员 取 得 交流 和 文 持 。 

e 蜂鸟 E200 处 理 器 研发 团队 拥有 在 国际 一 流 公 司 多 年 开发 处 理 器 的 经 验 , 使 用 稳健 的 
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Verilog 2001 语法 编写 的 可 综合 RTL 代码 ， 以 工业 级 标准 进行 开发 。 
e 蜂鸟 E200 的 代码 为 人 工 编 写 ， 添 加 丰富 的 注释 且 可 读 性 强 ， 非 常 易 于 理解 。 
e 蜂鸟 E200 专 为 IoT 领域 量 身 定 做 , 其 具有 2 级 流水 线 深度 , 功 耗 和 性 能 指标 均 优 于 
目前 主流 商用 的 ARM Cortex-M 系列 处 理 器 ， 且 免费 开源 ， 能 够 在 IoT 领域 完美 蔡 
[X ARM Cortex-M 处 理 器 。 
。 蜂鸟 E200 不 仅 提 供 处 理 器 核 的 实现 , 还 提供 完整 的 配套 SoC、 详细 的 FPGA 原型 平 
台 搭 建 步骤 ， 详 细 的 软件 运行 实例 。 用 户 可 以 按照 步骤 重 现 出 整套 SoC 系统 ， 轻 松 
将 E200 处 理 器 核 应 用 到 有 具体 产品 中 。 
。 蜂鸟 E200 不 仅 提供 处 理 器 核 的 实现 、SoC 实现 、FPGA 平台 和 软件 示例 ， 还 实现 了 
完整 的 调试 方案 ， 具 备 完整 的 GDB 交互 调 斌 功能。 蜂鸟 E200 是 从 硬件 到 软件 ， 从 
模块 到 SoC， 从 运行 到 调试 的 一 套 完整 解决 方案 。 
e 蜂鸟 E200 系列 提供 丰富 的 文档 和 实例 ， 本 书 亦 专 门 对 其 源 代码 进行 完整 的 剖析 。 
蜂鸟 E200 的 开源 口号 是 ， 让 免费 的 蜂鸟 E200 成 为 中 国 的 下 一 个 8051， 为 中 国 IoT Xi 
域 的 发 展 助 力 提 速 。 感 兴趣 的 读者 可 以 在 互联 网 上 搜索 作者 曾 发 表 过 的 文章 《进入 32 位 时 
代 ， 谁 能 成 为 下 一 个 8051》。 

蜂鸟 E200 开源 项 目的 源 代码 托管 于 著名 开源 网 站 GitHub. GitHub 是 一 个 世界 著名 的 锡 
费 的 项 目 托管 网 站 , 任何 用 户 无 须 注 册 即 可 从 网 站 上 下 载 源 代码 ， 众 多 的 开源 项 目 均 将 源 代 
码 托管 于 此 。E200 项 目 网 址 请 在 GitHub 中 搜索 “e200_opensource”。 关 于 GitHub 网 站 上 
e200 opensource 开源 项 目的 完整 代码 层次 结构 详解 ， 请 参见 第 17.1 市 。 


蜂 乌 E200 简介 一 一 蜂 乌 时 小 ， 五 脏 俱全 





蜂鸟 E200 主要 面向 极 低 功 耗 与 极 小 面积 的 场景 , 非常 适合 于 蔡 代 传统 的 8051 内 核 或 者 
Cortex-M 系列 内 核 应 用 于 IoT 或 其 他 低 功 耗 场景 。 同 时 ， 蜂 鸟 E200 作为 结构 精简 的 处 理 器 
核 ， 可 谓 “ 蜂 鸟 哩 小， 五 脏 俱 全 ”， 源 代码 全 部 开源 公开 ， 文 档 详 实 ， 非 常 适合 作为 大 中 专 
院 校 师 生 学 习 RISC-V 处 理 器 设计 《使 用 Verilog 语言 ) 的 教学 或 自学 案例 。 

蜂鸟 E200 系列 处 理 器 核 的 特性 简介 如 下 。 

。 E200 系列 处 理 器 核 采 用 两 级 流水 线 结构 ， 通 过 一 流 的 处 理 器 以 构 设 计 。 该 CPU f 

的 功 耗 与 面积 均 优 于 同 级 ARM Cortex-M 核 , 实现 业界 最 高 的 能 效 比 与 最 低 的 成 本 。 

。 E200 系列 处 理 器 核能 够 运行 RISC-V 指令 集 ， 支 持 RV32V/E/A/M/C/F/D 等 指令 子 集 

HEES, IFNA (Machine Mode Only). 
。 E200 系列 处 理 器 核 提 供 标 准 的 JTAG 调试 接口 以 及 成 熟 的 软件 调试 工具 。 
。 E200 系列 处 理 器 核 提 供 成 熟 的 GCC 编译 工具 链 。 


蜂鸟 E200 系列 处 理 器 的 系统 示意 图 如 图 4-1 
所 示 ， 其 提供 丰富 的 存储 和 接口 如 下 。 
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E200 系列 处 理 器 核 配 套 SoC 提供 紧 耦 合 系统 IP 模块 ， 包 括 中 断 控制 器 、 计 时 器 ， 
UART、QSPI 和 PWM 等 ， 即 时 能 用 (Ready-to-Use〉 的 SoC 平台 与 FPGA 原型 系统 。 


私有 的 ITCM (指令 紧 耦 合 存储 ) 与 DTCM 
(数据 紧 耦 合 存 储 )， 实 现 指令 与 数据 的 分 
离 存储 同时 提高 性 能 。 

中 断 接口 用 于 与 SoC 级 别 的 中 断 控制 器 
连接 。 


E nc 
调试 接口 用 于 与 SoC 级 别 的 JTAG 调试 c 
器 连接 。 


系统 总 线 接口 ， 用 于 访 存 指令 或 者 数据 。 

可 以 将 系统 主 总 线 接 到 此 接口 上 ，E200 图 4-1 RES E200 处 理 器 系统 示意 图 

可 以 通过 该 总 线 访 问 总 线 上 挂 载 的 片上 或 者 片 外 存储 模块 。 

紧 耦 合 的 私有 外 设 接 口 ， 用 于 访 存 数 据 。 可 以 将 系统 中 的 私有 外 设 直接 接 到 此 接口 
上 ， 使 得 E200 无 须 经 过 与 数据 和 指令 共享 的 总 线 便 可 访问 这 些 外 设 。 

紧 耦 合 的 快速 IO 接口 ， 用 于 访 存 数据 。 可 以 将 系统 中 的 快速 IO 模块 直接 接 到 此 接 
口上 ， 使 得 E200 无 须 经 过 与 数据 和 指令 共享 的 总 线 便 可 访问 这 些 模块 。 

所 有 的 ITCM、DTCM、 系 统 总 线 接 口 、 私 有 外 设 接口 以 及 快速 IO 接口 均 可 以 配置 
地 址 区 间 。 






E A e 
(cues | oras | Eeste 
= BEC] "Uc mA 


4.3 EANES] 


蜂鸟 E200 是 一 个 处 理 器 系列 ， 包 含 了 多 款 不 同 的 具体 处 理 器 型 号 。 所 有 的 E200 系列 
处 理 器 核 均 支持 协 处 理 器 接口 , 可 用 于 自 定 义 扩 展 指令 , 不 同型 号 的 具体 差别 如 表 4-1 所 示 。 


E201 核 是 面积 最 小 的 核 ， 可 以 配置 为 RV32IC 或 者 RV32EC 架构 ， 不 支持 其 他 的 扩 
展 指 令 子 集 。 

E203 核 可 以 配置 为 RV32IMAC 或 者 RV32EMAC 架构 , 使 用 面积 优化 的 多 周期 硬件 
乘除 法 单元 。 

E205 核 为 RV32IMAC 架构 ， 使 用 单 周期 的 硬件 乘法 单元 和 多 周期 的 硬件 除法 单元 。 
E205f 核 为 RV32IMAFC 架构 ， 在 基本 的 E205 基础 上 加 入 了 单 精度 浮 点 运算 单元 。 
E205fd 核 为 RV32IMAFDC 架构 , 在 基本 的 E205 基础 上 加 入 了 单 精 度 和 双 精 度 浮 点 
运算 单元 。 
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注意 : 目前 蜂 乌 E200 系列 中 开源 的 处 理 器 型 号 为 E203。 
表 4-1 E200 处 理 器 型 号 特性 介绍 


E201 E203 E205 | E205f E205fd 
支持 的 RISC-V 32 位 架构 IC IMAC 
IMAC IMAFC IMAFDC 
指令 子 集 EC EMAC 
有 有 
X 


硬件 乘除 法 单元 | | | 

(多 周期 乘除 法 器 ) ( 单 周 期 乘法 器 ， 多 周期 除法 器 ) 
硬件 单 精度 浮 点 器 有 
硬件 双 精度 浮 点 器 有 


ECC 保护 SRAM 可 配置 对 ITCM 与 DTCM 进行 ECC 保护 
可 扩展 性 可 以 进行 指令 集 扩展 (支持 协 处 理 器 接口 ) 
基本 外 设 提供 SPI、UART、PWM、GPIO、Timer、 中 断 控制 器 等 基本 外 设 


4.40 峰 乌 E200 性 能 指标 


蜂 乌 E200 处 理 器 核 的 功 耗 与 面积 以 及 性 能 参数 非常 有 竞争 力 ， 如 表 4-2 所 示 。 

e 蜂 乌 E203 核 的 功 耗 面 积 和 性 能 不 逊色 于 ARM 的 Cortex-M0+ 处 理 器 核 (M0+ 是 
ARM 最 小 面积 的 处 理 妖 核 )。 

e WES E205 核 的 功 耗 面积 和 性 能 不 逊色 于 Cortex-M3 处 理 器 核 。 

e E205fd 提供 了 目前 仅 在 Cortex-M7 中 才 具 备 的 双 精 度 浮 点 特性 (Cortex-M7 是 面积 
较 大 的 处 理 嚣 核 ， 相 比 蜂鸟 E205fd 而 言 ， 功 耗 会 更 大 )。 


表 4-2 “蜂鸟 E200 RS 与 “ARM Cortex-M ei 对 


蜂 乌 
Cortex-MO Cortex-MO- Cortex-M3 E201 E203 E205 


0.84 0.94 
(正式 数据 ) (正式 数据 ) 
Dhrystone 
1.21 1.31 1.25 1.171 1.23 1.355 
(DMIPS/MHz) 
(经 选项 最 大 优化 | 《经 选项 最 大 优化 
后 的 数据 ) 后 的 数据 ) 


CoreMark 
2.33 2.42 3.32 1.352 2.14 3.327 
(CoreMark/MHz) 
最 小 配置 逻辑 门 数 
(K Gates) 
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流水 线 深度 

Ru merui: pem Lus NIE I 有 
除法 器 有 
tt ic os A HEHEA H ITCM 5 DTCM Jit Ot P KI] ITCM 与 DTCM 
DTCM (HR RETIE) 

可 扩展 性 不 支持 指令 集 扩展 支持 协 处 理 器 接口 进行 指令 扩展 
注意 ; 

。 Cortex-M0+ 的 乘法 器 可 以 配置 成 单 周 期 乘法 器 或 多 周期 欠 代 乘法 器 。Dhrystone 性 能 数据 与 CoreMark 性 能 数据 是 采用 单 
周期 乘法 还 是 多 周期 乘法 器 的 信息 不 详 


。 本 表格 中 有 关 ARM Cortex-M 系列 处 理 器 核 的 性 能 数据 来 自 于 本 书 撰写 之 时 收集 的 公开 信息 和 非 官方 数据 , 本 书 对 其 正确 
性 不 做 保证 ， 请 读者 以 最 新 ARM 官方 数据 为 准 


4.5 Esa 


很 多 开源 的 处 理 器 核 仅 提供 其 实现 ， 为 了 能 够 完整 使 用 ， 用户 需 要 花费 不 少 精力 来 构建 
完整 的 SoC 平台 、FPGA 平台 。 很 多 开源 的 处 理 器 核 也 不 提供 对 于 调试 器 (Debugger) 的 文 
持 。 为 了 方便 用 户 快速 地 上 手 使 用 ， 蜂 鸟 E200 不 仅 开 源 了 自主 设计 的 Core， 还 开源 如 下 配 
套 组 件 。 

e 完整 的 SoC TT i "m4 4-2 m 4-3 Nm "o SoC 的 详情 请 参见 第 182 8. 


oaa i 





图 4-2 E200 系列 处 理 器 配套 SoC 结构 示意 图 
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表 4-3 E200 系列 处 理 器 配套 SoC 特性 

Hx 
- 
使 用 标准 JTAG 调试 接口 ， 支 持 GDB 交互 式 软件 调试 能 力 一 
- 
JR Fish 

z F 
L 


e 提供 软件 开发 环境 ， 如 第 19.2 市 所 述 。 

。 提供 交互 式 硬 件 调试 工具 (GDB) 的 支持 ， 如 第 19.4 节 所 述 。 

用 户 可 按照 第 17、18 章 所 摘 述 的 步骤 便 可 快速 搭建 完整 的 SoC 仿真 平台 和 FPGA 原型 
平台 ,按照 第 19 章 所 摘 述 的 步骤 便 可 快速 运行 软件 示例 。 可 以 说 ， 蜂 乌 E200 开源 的 不 仅 是 
一 个 处 理 器 核 ， 而 且 是 一 个 完整 MCU 软 硬 件 实现 。 


4.6 ES 配置 选项 


蜂鸟 E200 系列 的 每 款 处 理 器 均 具 有 一 定 的 可 配置 性 。 以 开源 的 蜂鸟 E203 核 为 例 ， 通 
过 修改 其 目录 下 的 config.v 文件 中 的 宏 定义 便 可 以 实现 不 同 的 配置 。 
config.v 文件 在 e200 opensource 项 目的 目录 结构 如 下 。 





e200 opensource 
|----rtl // 存放 RTL 的 目录 
|----e203 // E203 核 和 Soc 的 RTL 目录 
| ----core // 存放 core 相关 模块 的 RTL 代码 


|----config.v // 设 定 配置 的 源 文件 
config.v 中 的 具体 的 配置 选项 宏 定 义 如 表 4-4 所 示 。 
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表 4-4 E203 处 理 器 核 配置 选项 


RERNE 


如 果 添 加 了 此 宏 ， 则 配置 使 用 JTAG 调试 接口 
E203 CFG DEBUG HAS JTAG 使 用 


请 参见 第 14 章 了 解 有 关 调 试 器 信息 
E203 CFG ADDR SIZE IS 16 


此 3 个 宏 选择 其 中 一 个 ， 用 于 配置 处 理 器 的 总 线 地 址 












E203 CFG ADDR SIZE IS 24 32 位 
宽度 为 16 位 、24 位 和 32 位 

E203 CFG ADDR SIZE IS 32 
如果 添加 了 此 宏 , 则 配置 使 用 MCYCLE 和 MINSTRET 
这 两 个 64 位 的 计数 器 

E203 CFG SUPPORT MCYCLE MINSTRET 使 用 
请 参见 附录 B2.17 和 B2.18 节 了 解 有 关 MCYCLE 和 
MINSTRET 寄存 器 信息 
此 两 个 宏 选择 其 中 一 个 ， 用 于 配置 整数 通用 寄存 器 组 使 用 

E203 CFG REGNUM IS 32 

A T 32 个 通用 寄存 器 (RV321) 还 是 16 个 通用 寄存 器 (RV32E) 32 个 


E203 CFG REGNUM IS 16 
sides 请 参见 附录 A4.1 节 了 解 有 关 通 用 寄存 器 组 的 信息 


如 果 添 加 了 此 宏 ， 则 配置 使 用 ITCM 


E203 CFG HAS ITCM 使 用 
请 参见 第 11.4.4 节 了 解 有 关 ITCM 的 信息 


E203 CFG ITCM ADDR BASE 0x8000 0000 
配置 ITCM 的 大 小 ， 使 用 地 址 总 线 宽度 作为 其 大 小 的 
E203 CFG ITCM ADDR WIDTH 衡量 。 辟 如 ， 假 设 ITCM 的 大 小 为 IKByte， 则 此 宏 定 
义 值 为 10 
如 果 添 加 了 此 宏 ， 则 配置 使 用 DTCM em 
请 参见 第 11.4.4 节 了 解 有 关 DTCM 的 信息 
E203 CFG DTCM ADDR BASE 0x9000 0000 
配置 DTCM 的 大 小 ， 使 用 地 址 总 线 宽度 作为 其 大 小 的 
E203 CFG DTCM ADDR WIDTH 衡量 , 例如 假设 DTCM 的 大 小 为 1KByte， 则 此 宏 定 义 
值 为 10 
如 果 添 加 了 此 宏 ， 则 配置 使 用 锁 存 器 (Latch〉 作 为 通 
用 寄存 器 组 (Regfile ) 的 基本 单元 ; 如 果 没 有 添加 此 宏 ， 
则 使 用 D 触发 器 作为 基本 单元 
请 参见 第 8.3.4 节 了 解 有 关 寄 存 器 组 实现 的 信息 
配置 私有 外 设 接口 (Private Peripheral Interface, PPI) 
的 基地 址 
请 参见 第 12.4 节 了 解 有 关 总 线 接口 的 信息 
配置 PPI 接口 的 地 址 区 间 , 通过 指定 高 位 的 区 间 来 界定 
地 址 区 间 。 璧 如， 如 果 该 宏 定义 为 31:28， 基 地 址 定义 












E203 CFG HAS DTCM 


E203 CFG REGFILE LATCH BASED 不 使 用 锁 存 器 









E203 CFG PPI ADDR BASE 0x1000 0000 


E203 CFG PPI BASE REGION 31:28 


为 0x1000 0000 ， 则 表示 PPI 的 地 址 区 间 为 
0x1000 0000—O0xlFFF FFFF 
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宏 


E203 CFG FIO ADDR BASE 


E203 CFG FIO BASE REGION 


E203 CFG CLINT ADDR BASE 


E203 CFG CLINT BASE REGION 


E203 CFG PLIC ADDR BASE 


E203 CFG PLIC BASE REGION 


E203 CFG HAS ECC 


E203 CFG HAS EAI 


E203 CFG SUPPORT SHARE MULDIV 


E203 CFG SUPPORT AMO 


续 表 
RERU 


配置 快速 FIO 接口 (Fast IO Interface, FIO) 的 基地 址 


Oxf000 0000 
请 参见 第 12.4 节 了 解 有 关 总 线 接口 的 信息 " 
配置 FIO 接口 的 地 址 区 间 ， 通 过 指定 高 位 的 区 间 来 界 
定 地 址 区 闻 。 例 如 如 果 该 宏 定义 为 31:28， 基 地 址 定义 dim 


为 0xf000 0000 ， 则 表示 FIO 的 地 址 区 间 为 
0xf000 0000 一 0xfFFF FFFF 

配置 CLINT 接口 的 基地 址 

请 参见 第 13.5.5 节 了 解 有 关 CLINT 的 信息 

配置 CLINT 接口 的 地 址 区 间 ， 通 过 指定 高 位 的 区 间 来 
界定 地 址 区 间 。 例 如 如 果 该 宏 定 义 为 31:16， 基 地 址 定 





0x0200 0000 


31:16 


义 为 0x0200 0000, JU 5 PLIC 的 地 址 区 间 为 
0x0200 0000 一 0x0200 FFFF 

配置 PLIC 接口 的 基地 址 

请 参见 第 13.5.6 节 了 解 有 关 PLIC 的 信息 





0x0C00 0000 


配置 PLIC 接口 的 地 址 区 间 , 通过 指定 高 位 的 区 间 来 界 
定 地 址 区 间 。 例 如 如 果 该 宏 定义 为 31:24， 基 地 址 定义 
为 0x0C00 0000 ， 则 表示 PLIC 的 地 址 区 间 为 
0x0C00 0000~0x0CFF_FFFF 
如 果 添 加 了 此 宏 ， 则 配置 使 用 ECC 对 ITCM 和 DTCM 
的 SRAM 进行 保护 

注意 : 在 GitHub 上 ， 此 选项 的 功能 并 未 开源 ， 因 此 相 
关 代 码 并 不 具备 ， 即 便 添加 了 配置 宏 也 不 起 作用 

如 果 添 加 了 此 宏 ， 则 配置 使 用 协 处 理 器 接口 
注意 : 在 GitHub 上 ， 此 选项 的 功能 并 未 开源 ， 因 此 相 
关 代码 并 不 具备 ， 即 便 添加 了 配置 宏 也 不 起 作用 







31:24 


不 使 用 ECC 






无 协 处 理 器 接口 


如 果 添 加 了 此 宏 ， 则 配置 使 用 面积 优化 的 多 周期 乘除 
法 单元 


使 用 多 周期 乘除 法 









如 果 添 加 了 此 安 ， 则 支持 RISC-V 的 “A” 扩 展 指令 子 集 
请 参见 附录 A14.5 节 了 解 RV32A 指令 子 集 的 信息 


支持 RISC-V 的 “A” 
扩展 指令 子 集 





第 二 部 分 


手把手 教 你 使 用 Verilog 


第 5 章 
“| 第 6 章 
第 7 章 


第 8 章 
第 9 章 





设计 CPU 


先 见 森 林 ， 后 观 树木 一 一 蜂 乌 
E200 设计 总 览 和 顶层 介绍 

流水 线 不 是 流水 账 一 一 蜂鸟 E200 
流水 线 介 绍 
万 事 开 头 难 吗 
开始 
一 鼓 作 气 ,执行 力 是 关键 一 一 执行 
T XE LAA dE XN 





一 切 从 取 指 令 





| 第 10 章 让 子弹 飞 一 会 儿 一 一 写 回 
第 11 章 哈弗 还 是 比亚迪 一 一 存储 器 架构 


第 1233 


第 13 章 
第 14 章 


第 15 章 


第 16 章 


黑 盒 子 的 窗口 一 一 总 线 接 口 单 
元 BIU 

不 得 不 说 的 故事 一 一 中 断 和 异 稼 
最 不 起 眼 的 , 其实 是 最 难 的 一 一 
调试 机 制 

动 如 脱兔 , 静 若 处 子 一 一 低 功 耗 
的 诀窍 

工 欲 善 其 事 ， 必 先 利 其 器 一 一 
RISC-V 可 扩展 协 处 理 融 








EPIRU — HE, 
这 个 是 正确 的 打开 方式 。 
应 该 先 看 全 局 ， 
再 观 局 部 。 
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在 学 习 或 者 讲解 菏 个 拉 术 要 点 时 ， 作 者 比较 推 当 的 方法 是 “ 先 见 森林 ， 后 观 树木 ”"” 即 
先 从 宏观 着 手 了 解 全 局 ， 然 后 才 切 入 微观 细节 。 

本 书 的 第 二 部 分 中 的 各 章节 将 以 蜂鸟 E200 为 具体 实例 介绍 如 何 设计 一 计 RISC-V CPU. 
作为 本 部 分 的 开篇 之 章 ， 本 章 将 先 从 宏观 的 角度 着 手 ， 介 绍 厦 干 处 理 占 设计 的 总 贤 要 诀 、 蜂 
Ej E200 处 理 器 核 的 总 体 设计 思想 和 顶层 接口 。 

通过 本 章 的 学 习 ， 将 帮助 读者 整体 认识 蜂鸟 E200 处 理 器 的 设计 要 诀 ， 为 后 续 各 章 针对 
不 同 部 分 的 展开 详 述 而 砚 定 基础 。 

注意 : 蜂鸟 E200 开源 项 目的 所 有 源 代 码 均 托管 于 著名 开源 网 站 GitHub， 本 书 所 有 章节 
中 将 广泛 地 以 “e200_opensource 项 目 ” 为 简称 代表 GitHub 网 站 上 蜂 乌 E200 的 项 目 路 径 〈 请 
在 GitHub 中 搜索 “e200 opensource”)。 关 于 GitHub 网 站 上 e200 opensource 开源 项 目的 完 
整 代码 层次 结构 详解 ， 请 参见 第 7.175. 


5.1 ES EXIIT E 
5.1.4 架构 和 微 架 构 


在 介绍 处 理 器 的 设计 细节 之 前 ， 必 须 明确 “架构 ”和 “ 微 架 构 ” 概 念 的 含义 和 区 别 。 请 
参见 第 1.1.1 节 对 其 进行 的 概念 介绍 ， 本 市 在 此 不 重复 讨论 。 

“架构 ”和 “ 微 架构 ”概念 在 后 续 章 节 中 将 会 被 广泛 地 提 及 和 使 用 ， 因 此 需 加 以 注意 区 
分 。 当 然 ， 网络 上 很 多 的 文章 时 和 常 混用 这 些 概念 ， 并 未 严谨 地 遵循 其 差别 ,读者 可 以 目 行 体 
AE PX TUS. 


5.1.2. CPU, Abg. Core 和 处 理 器 核 


在 介绍 处 理 器 的 设计 细节 之 前 ， 还 须 明确 “CPU”“ 处 理 器 ”*”“Core” 和 “处 理 器 核 ” 概 
念 的 含义 和 区 别 。 请 参见 第 1.1 节 中 的 概念 介绍 ， 本 节 在 此 不 重复 讨论 。 

“CPU”“ 处 理 器 ”“Core” 和 “处 理 器 核 ” 概 念 在 后 续 章 节 中 将 会 家 广泛 地 提 及 和 使 用 ， 
因此 请 读者 重视 并 加 以 注意 区 分 。 


5.1.3 ”处 理 器 设计 和 验证 的 特点 


不 同 的 ASIC 设计 均 需 要 掌握 不 同 的 背景 知识 ， 例 如 通信 ASIC 需要 我 们 了 解 通信 算法 
的 特点 ， 音频 ASIC 则 需要 了 解 音 频 算法 的 特点 。 而 处 理 器 设计 作为 一 种 特殊 的 ASIC 设计 ， 
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也 需 我 们 了 解 茶 些 方面 的 背景 知识 和 特点 ， 归 纳 如 下 。 

。 熟悉 汇编 语言 及 其 执行 过 程 。 

。 了 解 软件 如 何 经 编译 、 汇 编 、 链 接 最 后 成 为 处 理 器 可 执行 的 二 进 制 码 的 过 程 。 

。 了 解 计算 机 体系 结构 的 知识 。 

e 处 理 器 对 时 序 和 面积 的 要 求 一 般 会 非常 严格 ， 需 不 断 反 复 地 优化 时 序 和 面积 ， 因 此 

对 电路 和 逻辑 设计 的 理解 需要 比较 深刻 。 

处 理 占 的 验证 也 有 其 特点 ， 通 常 需要 从 3 个 不 同 层面 对 处 理 器 进行 验证 。 

。 需 使 用 传统 的 模块 级 验证 手段 (例如 UVM 等 ) 对 处 理 器 的 子 模块 进行 验证 。 

。 需 使 用 人 工 编写 或 者 随机 生成 的 汇编 语言 测试 用 例 在 处 理 器 上 运行 进行 验证 。 

e 需 使 用 高 等 语言 (譬如 C、C++) 编写 的 测试 用 例 在 处 理 器 上 运行 进行 验证 。 

综 上 所 述 ， 处 理 器 的 设计 和 验证 是 一 个 软 硬 件 联 合 的 过 程 ， 牵涉 的 方面 比较 多 ， 工 作 量 
比较 大 。 


5.2 E T-XznnES rir nir 


1. 模块 化 和 可 重用 性 

蜂鸟 E200 处 理 器 核 的 设计 遵循 模块 化 的 原则 ， 将 处 理 器 划分 为 几 个 主体 模块 单元 ,每 
个 单元 之 间 的 接口 简单 清晰 ， 而 将 盘根错节 的 关系 尽量 控制 在 单元 内 部 。 在 划分 模块 单元 时 
还 充分 考虑 到 可 重用 性 ， 即 这 些 单元 在 下 一 代 的 处 理 器 核 微 架构 中 还 能 够 被 继续 使 用 。 

2. 面积 最 小 化 

由 于 蜂鸟 E200 处 理 器 核 在 满足 一 定性 能 指标 的 前 提 下 ， 以 追求 低 功 耗 、 小 面积 为 第 一 
要 义 ， 因 此 设计 中 尽 可 能 地 复 用 数据 通路 以 节省 面积 开销 。 当 在 某 些 细节 上 存在 着 时 序 和 面 
积 的 冲突 时 ， 应 选择 面积 优先 的 策略 。 

3. 结构 简单 化 

蜂鸟 E200 处 理 器 核 在 设计 哲学 上 与 RISC-V 架构 一 致 ， 即 遵循 简单 就 是 美 ， 简 单 即 可 
靠 的 策略 。 在 微 架 构 的 制定 上 防止 陷入 繁复 的 陷阱 ， 在 有 选择 的 情形 下 优先 选用 最 简单 的 方 
案 ， 只 有 在 最 关键 的 场景 才 使 用 复杂 的 设计 方案 ， 即 所 谓 “ 好 钢 用 在 刀刃 上 ”。 

4. 性 能 不 追求 极端 

处 理 器 对 于 性 能 的 妃 求 往往 是 严格 的 。 由 于 蜂鸟 E200 是 一 款 超 低 功 耗 的 处 理 器 核 ， 虽 
然 也 追求 性 能 的 最 大 化 , 但 须 以 面积 最 小 化 和 结构 简单 化 为 前 提 ， 性 能 提倡 够 用 即 可 (Good 
Enough) 的 哲学 。 
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5.3 EHS EA 


蜂鸟 E200 处 理 器 核 采 用 一 套 统 一 的 Verilog RTL 编码 风格 (Coding Style)， 来 自 于 严谨 
的 工业 级 开发 标准 ， 其 要 点 如 下 。 

e 使 用 标准 DFF 模块 例 化 生成 寄存 器 。 

o 推荐 使 用 Verilog 中 的 assign 1872: 4 4X if-else 和 case 语法 进行 代码 编写 。 

。 HETER. 

下 面 分 别 予 以 详 述 。 


5.3.1 使 用 标准 DFF 模块 例 化 生成 寄存 器 


寄存 器 是 数字 同步 电路 中 最 基本 的 单元 。 使 用 Verilog 进行 数字 电路 设计 时 ， 最 常见 的 
方式 是 使 用 always 块 语法 生成 寄存 器 。 蜂 鸟 E200 处 理 器 核 推 荐 如 下 原则 ， 本 原则 来 自 于 严 
谨 的 工业 级 开发 标准 ， 其 要 点 如 下 。 

(1) 对 于 寄存 器 避免 直接 使 用 always 块 编写 ， 而 是 应 该 采用 模块 化 的 标准 DFF 模块 进 
行 例 化 。 示 例如 下 所 示 ， 一 个 名 为 flg dffir 的 寄存 器 ， 除 了 时 钟 (clk〉 和 复位 信号 (rst_n) 
之 外 ， 还 禹 有 使 能 信号 flg ena 和 输入 Clg nxt) /输出 信号 Clg r). 





| wire flg r; 
wire flg nxt 
wire flg ena 


«tlg r? 


| 
| 
| (ptr r == ('E203 OITF DEPTH-1)) & ptr ena; 


// 此 处 使 用 例 化 sirv gnrl dfflr 的 方式 实现 寡 存 器 ， 而 不 是 使 用 显示 的 always 块 
sirv gnrl dfflr #(1) flg dfflrs(flg ena, flg nxt, flg r, clk, rst n); 
(2) 使 用 标准 DFF 模块 例 化 的 好 处 包括 以 下 内 容 。 
。 便于 全 局 蔡 换 寄 存 器 类 型 。 
。 便于 在 寄存 器 中 全 局 插入 延迟 。 
e 有 明确 的 load-enable 使 能 信号 (如 下 例 的 flg ena) 方便 综合 工具 自动 插入 寄存 器 级 别 
的 门 控 时 钟 以 降低 动态 功 耗 (参见 第 15.1.5 节 了 解 更 多 此 低 功 耗 设计 的 信息 )。 
。 便于 规避 Verilog 语法 if-else 不 能 传播 不 定 态 的 问题 ， 有 关 此 内 容 可 以 参考 第 5.32 节 。 
(3) 标准 DFF 模块 是 一 系列 不 同 的 模块 ， 相 关 源 代码 在 e200 opensource 目录 的 结构 如 下 。 
roit T // 存放 RTL 的 目录 
| ----e203 // E203 核 和 Soec I] RTL 目录 


|----general // 存放 一 些 通用 模块 的 RTL 代码 
|----sirv gnrl dffs.v // 该 文件 中 编写 了 一 系列 不 同 的 DFF 模块 ， 
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| 列举 如 下 : 


sirv gnrl dfflrs // 带 有 load-enable 使 能 ， 带 有 异步 reset， 复 位 默认 值 为 1 的 寄存 器 
sirv gnrl dfflr  // 带 有 1load-enable 使 能 ， 带 有 异步 reset， 复 位 默认 值 为 0 的 寄存 器 
sirv gnrl dffl // 带 有 1oad-enable 使 能 ， 不 带 有 reset 的 寄存 器 

sirv gnrl dffrs // PWA load-enable 使 能 ， 带 有 异步 reset， 复 位 默认 值 为 1 的 寄存 器 
sirv gnrl dffr / / ^H Load-enable 使 能 ， 带 有 异步 reset， 复 位 默认 值 为 0 的 寄存 器 
sirv gnrl Itch / /Latch 锁 存 器 模块 


(4) 标准 DFF 模块 内 部 则 使 用 Verilog 语法 的 always 块 进行 编写 ， 以 dfflr 为 例 ， 如 下 
所 示 。 由 于 Verilog if-else 语法 不 能 传播 不 定 态 ， 对 处 于 让 条 件 中 的 Iden 信号 为 不 定 态 的 非 
法 情况 使 用 断言 Cassertion). 进行 捕捉 。 

// 标准 DFF 模块 ， 以 sirv gnrl dfflr 为 例 ， 代 码 片 段 如 下 


module sirv gnrl dfflr # ( 
parameter DW - 32 
) 5 


input lden, 
input [DW-1:0] dnxt, 
output [DW-1:0] qout, 
input clk, 

input rst n 


); 
reg [DW-1:0] qout r; 


// 使 用 always 块 编写 寄存 器 逻辑 
always 8 (posedge clk or negedge rst n) 
begin : DFFLR PROC 
if (rst ñn == 1'b0) 
qout r <= {DW{1'b0}}; 
else if (lden == 1'b1) 
qout r <= dnxt; 
end 


assign qout - qout r; 


/ /f&Fi assertion 捕捉 lden 信号 的 不 定 态 
'ifndef FPGA SOURCE//( 
'ifndef SYNTHESIS//( 
sirv gnrl xchecker # ( // 该 模块 内 部 是 个 SystemVerilog 编写 的 断言 ， 如 下 文 详解 
.DW(1) 
)u sirv gnrl xchecker( 
.i dat(lden), 
.Clk  (clk) 
); 
'endif//) 
'endif//) 
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| endmodule 


// sirv gnrl xchecker 模块 代码 片段 


// 此 模块 专门 捕捉 不 定 态 ， 一 旦 输入 的 i _dat 出 现 不 定 态 ， 则 会 报错 并 终止 仿真 。 
module.sirv gnrl xchecker # ( 
parameter DW = 32 
hu 
input  [DW-1:0] i dat, 
input clk 
); 


CHECK THE X VALUE: 
assert property (8(posedge cik) 


((^(i dat)) !== 1'bx) 
) 
else $fatal ("Wn Error: Oops, detected a X value!!! This should never hap 
pen. Mn"); 
endmodule 


5.3.2 ”推荐 使 用 assign 语法 蔡 代 if-else 和 case 语法 


Verilog 中 的 if-else 和 case 语法 存在 两 大 缺点 。 

。 不 能 传播 不 定 态 。 

。 会 产生 优先 级 的 选择 电路 而 非 并 行 选择 电路 ， 从 而 不 利于 时 序 和 面积 。 

为 了 规避 这 两 大 缺点 ， 蜂 乌 E200 处 理 器 核 推 荐 使 用 assign 语法 进行 代码 编写 ， 本 原则 
来 自 于 严 谎 的 工业 级 开发 标准 ， 详 细 解 释 如 下 。 

问题 一 : 


Verilog Hj if-else 不 能 传播 不 定 态 ， 以 如 下 代码 片段 为 例 。 假设 a 的 值 为 x 不 定 态 ， 按 照 Verilog 
语法 会 将 其 等 效 于 a == 0， 从 而 让 out 输出 值 等 于 in2 最 终 没 有 将 X 不 定 态 传播 出 去 。 这 种 情况 可 能 会 在 
仿真 阶段 掩盖 某 些 致命 的 bug， 造 成 芯片 功能 错误 。 

if (a) 

out - inl; 
else 

out = in2; 

/7 而 使 用 功能 等 效 的 assign 语法 ， 如 下 所 示 ， 假 设 a 的 值 为 Xx 不 定 态 ， 按 照 Verilog Wik, Me% x 
不 定 态 传播 出 去 ， 从 而 让 out 输出 值 也 等 于 xX。 通过 x 不 定 态 的 传播 ， 可 以 在 仿真 阶段 将 bug 彻底 暴露 出 来 

assign out = a ? inl : in2; 

/ /虽然 现在 有 的 EDA 工具 提供 专 有 选项 (例如 Synopsys ves 提供 xprop 选项 ) 可 以 将 Verilog JE 
始 语法 中 定义 的 “不 传播 不 定 态 ” 的 情形 强行 传播 出 来 ， 但 是 一 方面 不 是 所 有 的 EDA 工具 均 支 持 此 功能 ， 另 
一 方面 在 操作 中 此 选项 也 时 常 被 忽视 ， 从 而 造成 疏漏 
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问题 二 : 


Verilog 的 Case 语法 也 不 能 传播 不 定 态 ， 与 问题 一 中 的 if-else 同 理 。 而 使 用 等 效 的 assign 语法 
即 可 规避 此 缺陷 。 


问题 三 : 


Verilog 的 if-else 语法 会 被 综合 成 为 优先 级 选择 的 电路 ， 面 积 和 时 序 均 不 够 优化 ， 如 下 所 示 : 
if (sell) 
out = in1[3:0]; 
else if (sel2) 
out = in2[3:0]; 
else if (sel3) 
out = in3[3:0]; 
else 
out = 4'b0; 
如 果 此 处 确实 是 希望 生成 一 种 优先 级 选择 的 逻辑 ， 则 推荐 使 用 assign 语法 等 效 地 编写 成 如 下 形式 ， 以 
规避 x 不 定 态 传播 的 问题 : 
assign out = sell ? in1[3:0] : 
sel2 ? in2[3:0] : 
sei? 7 an3 [3:0] : 


4' 50; 
而 如 果 此 处 本 来 是 希望 生成 一 种 并 行 选择 的 逻辑 ， 则 推荐 使 用 assign 187589] Wü [8H]. 5" - "uU E 
辑 ， 编 写 如 下 : 
assign out = ((4fsell)) & in1[3:0]) 


| ((4(se12)) & in2[3:0]) 
| ((4[se13)) & in3[3:0]): 
// 使 用 明确 的 assign 语法 编写 的 “与 ”-“ 或 ”逻辑 一 定 能 够 保证 综合 生成 并 行 选择 的 电路 


问题 四 : 


与 问题 三 同 理 ，Verilog 的 case 语法 也 会 被 综合 成 为 优先 级 选择 的 电路 ， 面 积 和 时 序 均 不 够 优化 。 有 
的 EDA 综合 工具 可 以 提供 指引 注释 (例如 synopsys parallel case 和 full case) 来 使 得 综合 工具 能 
够 综合 出 并 行 选择 逻辑 ,但 是 这 样 可 能 会 造成 前 后 仿真 不 一 致 的 严重 问题 ， 从 而 产生 重大 的 bug。 因 此 ， 在 实 
际 的 工程 开发 中 : 

。 应 该 明令 禁止 使 用 EDA 综合 工具 提供 的 指引 注释 (例如 synopsys parallel case fi 
full case) e 


。 应 该 使 用 问题 三 推荐 的 等 效 assign 语法 编写 电路 。 


5.3.3 ”其 他 若干 注意 事项 


其 他 编码 风格 中 的 在 干 要 点 如 下 。 
。 由 于 带 有 reset 的 寄存 器 面积 和 时 序 会 稍微 差 一 点 ， 因 此 在 数据 通路 上 可 以 使 用 不 带 
reset 的 寄存 器 ， 而 只 在 控制 通路 上 使 用 带 reset 的 寄存 器 。 请 参见 第 15.1.5 节 了 解 更 
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多 此 低 功 耗 设 计 的 要 诀 。 
e 信号 名 定义 应 该 避免 使 用 拼音 ,注重 使 用 英语 缩写 , 信号 名 不 可 定义 得 过 长 , 但 是 也 不 
可 以 定义 得 过 短 。 所 谓 代码 即 注释 ， 应 该 尽量 从 信和 号 名 中 能 够 看 出 此 信和 号 的 功能 作用 。 
。 Clock 和 Reset 信号 应 禁止 被 用 于 任何 其 他 的 逻辑 功能 ，Clock 和 Reset 信号 只 能 接 
入 DFF 作为 其 时 钟 和 复位 信号 之 用 。 


5.3.4 小结 


EXIT noel S, E200 代码 风格 最 大 的 特点 ， 其 所 推荐 使 用 的 assign 语法 和 标准 DFF 
例 化 方法 能 够 使 得 任何 不 定 态 在 前 仿真 阶段 无 处 通 形 ， 综 合 工具 能 够 综合 出 很 高 质量 的 电 
路 ， 综 合 出 的 电路 门 控 时 钟 率 也 很 高 。 

以 上 只 是 简 述 了 蜂鸟 E200 中 核心 的 代码 风格 ， 其 他 还 有 很 多 的 代码 风格 要 点 在 此 不 做 
次 述 ， 感 兴趣 的 读者 可 以 在 阅读 源 代码 时 自行 体会 。 


5 .4 WEE 


以 开源 的 蜂鸟 E203 处 理 器 核 为 例 ， 其 模块 
层次 的 划分 如 图 $-1 所 示 ， 要 点 如 下 。 
(1) 顶层 的 e203 cpu top 中 仅 例 化 两 个 模 
块 ， 分 别 为 e203 cpu 和 e203 srams. 
。 e203 cpu 为 处 理 器 核 的 所 有 逻辑 部 分 。 
e e203_srams 为 处 理 器 核 的 所 有 SRAM 部 
分 〈 辟 如 ITCM 和 DTCM 的 SRAM )。 
将 SRAM 和 逻辑 部 分 在 层次 上 分 开 是 为 
了 方便 ASIC 实现 。 
(2) 逻辑 顶层 e203 cpu 模块 中 例 化 的 e203. clk ctrl 用 于 控制 处 理 器 各 个 主要 组 件 的 自 
动 时 钟 门 控 ， 参 见 第 15.1.4 节 了 解 更 多 此 低 功 耗 设计 的 要 诀 。 
(3) 还 辑 顶层 e203. cpu 模块 中 例 化 的 e203 irq sync 用 于 将 外 界 的 异步 中 断 信 号 进行 同步 。 
(4) 逻辑 顶层 e203_cpu 模块 中 例 化 的 e203 reset ctrl 用 于 将 外 界 的 异步 reset 信号 进行 
同步 使 之 变 成 “异步 置 位 同步 释放 ”的 复位 信号 。 
(5) ZE e203_cpu 模块 中 例 化 的 e203 item ctrl 和 e203 dtem ctrl 用 于 控制 ITCM 
和 DTCM 的 访问 。 请 参见 第 11.4.4 节 了 解 更 多 ITCM 和 DTCM 的 设计 细节 。 
(6) 逻辑 顶层 e203. cpu 模块 中 例 化 的 e203_core 则 是 处 理 器 核 的 主体 部 分 ， 其 中 实现 了 
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处 理 器 核 的 主要 功能 。 
e 取 指 令 单元 e203 ifu， 参 见 第 7 章 了 解 更 多 细节 。 
。 执行 单元 e203 exu， 参 见 第 8、9、10、13 章 了 解 更 多 细节 。 
e 存储 器 访问 单元 e203 lsu， 参 见 第 11 章 了 解 更 多 细节 。 
。 总 线 接口 单元 e203 biu， 参 见 第 12 章 了 解 更 多 细节 。 


AM 





以 开源 的 蜂鸟 E203 处 理 器 核 为 例 ， 其 处 理 器 核 的 源 代码 在 e200 opensource 目录 的 结构 如 
Fe XT GitHub 网 站 上 e200 opensource 开源 项 目的 完整 代码 层次 结构 详解 , 请 参见 第 17.1 节 。 


| e200 opensource 


|----rtl // 存放 RTL 的 目录 
| ----e203 // E203 Efl Soc # RTL 目录 
|----general // 存放 一 些 公用 的 通用 RTL 代码 
| |----core // 存放 e203 Core [f] RTL 代码 ， 


// 列举 主要 文件 如 下 ， 全 部 的 文件 列表 请 参见 GitHub 
|7----config.v // 参数 配置 文件 ， 参 见 第 4.6 节 了 解 具 体 配 置信 息 
|----e203 biu.v // BIU 模块 
|----e203_reset_ctrl.v// Core 的 复位 控制 (Reset Control) 模块 
|----e203_clk_ctrl.v // Core 的 时 钟 控 制 (Clock Control) 模块 
|----e203 cpu top.v // Core 的 顶层 模块 
[----8203 6cbu.v // Core 去 除了 SRAM 之 后 的 逻辑 顶层 模块 
|----e203 core.v // Core 的 主体 逻辑 模块 
|----e203 dtcm ctrl.v // DTCM 的 控制 模块 
| |----e203 itcm ctrl.v // ITCM 的 控制 模块 





| |----e203 exu.v // Core 内 部 执行 单元 顶层 模块 
|----e203 ifu.v // Core 内 部 取 指 令 单元 顶层 模块 
|----e203 lsu.v // Core 内 部 存储 器 访问 单元 顶层 模块 


|----e203 srams.v // Core 的 所 有 SRAM 的 顶层 模块 
1----e203 itcm ram.v  // ITCM 的 SRAM 模块 
|----e203 dtcm ram.v  // DTCM 的 SRAM 模块 





5.6 KARZ ES 贡生 各 本 


蜂鸟 E200 系列 的 每 蒜 处 理 器 均 有 一 定 的 可 配置 性 。 以 开源 的 蜂鸟 E203 核 为 例 ， 通 过 
修改 其 目录 下 的 config.v 文件 中 的 宏 定 义 便 可 以 实现 不 同 的 配置 。 请 参见 第 4.6 节 了 解 具体 
配置 信息 。 
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5.7 EE 


请 参见 附录 A 了 解 蜂鸟 E200 处 理 器 核 支 持 的 RISC-V 指令 列表 。 








5.8 EMILE ES 


蜂鸟 E200 系列 处 理 器 核 的 流水 线 结构 及 其 各 主要 部 分 简介 ， 请 参见 第 6 章 。 


5.9 蜂鸟 E200 处 理 器 核 顶 层 接口 介绍 


本 节 以 开源 的 蜂鸟 E203 处 理 器 核 为 例 ， 介 绍 项 层 接口 信号 。 蜂 鸟 E203 处 理 器 的 顶层 
模块 e203_cpu top 的 接口 信号 如 表 5-1 所 示 。 





表 5-1 E203 处 理 器 核 顶 层 接口 信号 列表 
信 号 名 ES 
test mode Duae 4i 7 47 测试 模式 信号 
T [ mu |i —— (meas 
rst n | nmm |!1 | 异步 复位 信号 低 电 平 有 效 
该 处 理 器 核 的 HART ID 指示 信号 ， 在 SoC 集成 
core_mhartid 'E203 HART ID W | 时 ， 可 以 将 此 信和 号 赋予 茶 个 常数 值 或 者 信号 值 。 


请 参见 附录 B2.5 节 了 解 HART ID 的 信息 
该 输入 信号 用 于 指定 处 理 器 被 reset 后 的 PC 初始 


pc rtvec 'E203 PC SIZE 值 。 fE SoC 层面 可 以 通过 控制 此 信号 达到 控制 处 
理 器 核 上 电 PC 初始 值 的 效果 
| 外 部 中 断 ， 来 自 PLIC 模块 。 请 参见 第 13 章 了 解 
ext irq a 
RISC-V HAI PLIC 的 相关 信息 
软件 中 断 ， 来 自 CLINT 模块 。 请 参见 第 13 章 了 
sft irq a 





fi RISC-V 中 断 和 CLINT 的 相关 信息 
计时 器 中 ， 断 来 自 CLINT 模块 。 请 参见 第 13 章 
Nn NB T fë RISC-V 中 断 和 CLINT 的 相关 信息 
该 输出 信号 如 果 为 高 电 平 ， 则 指示 此 处 理 器 核 处 
core wfi om ie 于 执行 WFI 指令 之 后 的 休 虐 状态 ,请 参见 第 15.3.2 


节 了 解 WFI 指令 进入 低 功 耗 体 眠 状态 的 信息 


tmr irq à 
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续 表 
m g 


此 信号 用 于 固定 与 SoC 中 的 CLINT 相连 接 。 请 
参见 第 13.5.5 节 了 解 更 多 CLINT 模块 的 细节 

tm_stop 该 输出 信号 的 值 来 自 于 蜂鸟 E200 自 定 义 的 CSR 
寄存 器 mcounterstop 中 的 TIMER 域 .请 参见 附录 
B3.1 节 了 解 mcounterstop 寄存 器 更 多 信息 


ext2itcm icb cmd valid 
ext2itcm icb cmd ready 
ext2itcm icb cmd addr 
ext2itcm icb cmd read 

ext2itcm icb cmd wdata 此 组 信号 为 ITCM 外 部 接口 的 ICB 总 线 信号 ， 参 见 第 11.4.4 节 了 解 有 关 ITCM 的 信息 和 其 外 
ext2itcm icb cmd wmask 部 接口 信息 
ext2itcm icb rsp valid 
exQitem icb rsp ready 
ext2itcm icb rsp err 

ext2itcm icb rsp rdata 
ext2dtem icb cmd valid 
ext2dtcm icb cmd ready 
ext2dtcm icb cmd addr 
ext2dtcm icb cmd read 

ext2dtcem icb cmd wdata 此 组 信号 为 DTCM 外 部 接口 的 ICB 总 线 信号 ,参见 第 11.4.4 节 了 解 有 关 DTCM 的 信息 和 其 外 
ext2dtcem icb cmd wmask 部 接口 信息 
ext2dtcm icb rsp valid 
ext2dtcm icb rsp ready 
ext2dtcm icb rsp err 
ext2dtcm icb rsp rdata 

ppi icb cmd valid 

ppi icb cmd ready 

ppi icb cmd addr 


ppi icb cmd read 


ppi icb cmd wdata 此 组 信号 为 私有 外 设 接口 的 ICB 总 线 信 号 , 参见 第 12 XT SERA ICB 的 信息 和 私有 外 设 接口 
ppi icb cmd wmask 信息 

ppi icb rsp valid 

ppi icb rsp ready 

ppi icb rsp err 


ppi icb rsp rdata 
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续 表 
信 号 名 描述 

fio icb cmd valid 
fio icb cmd ready 
fio icb cmd addr 
fio icb cmd read 
fio icb cmd wdata 此 组 信号 为 快速 IO 接口 的 ICB 总 线 信 号 ， 参 见 第 12 章 了 解 有 关 1CB 的 信息 和 快速 IO 接口 
fio icb cmd wmask 信息 
fio icb rsp valid 
fio icb rsp ready 
fio icb rsp err 
fio icb rsp rdata 
mem icb cmd valid 
mem icb cmd ready 
mem icb cmd addr 
mem icb cmd read 
mem icb cmd wdata 此 组 信号 为 系统 存储 接口 的 ICB 总 线 信号 , 参见 第 12 章 了 解 有 关 ICB 的 信息 和 系统 存储 接口 
mem icb cmd wmask 信息 
mem icb rsp valid 
mem icb rsp ready 
mem icb rsp err 
mem icb rsp rdata 
clint icb cmd valid 
clint icb cmd ready 
clint icb cmd addr 
clint icb cmd read 
clint icb cmd wdata 

A ELE 此 组 信号 为 CLINT 接口 的 ICB 总 线 信号 ， 参 见 第 12 章 了 解 有 关 ICB 的 信息 和 CLINT 接口 信息 
clint icb cmd wmask 
clint icb rsp valid 
clint icb rsp ready 
clint icb rsp err 
clint icb rsp rdata 
plic icb cmd valid 
plic icb cmd ready 
plic icb cmd addr 
plic icb cmd read 
plic icb cmd wdata 

t 此 组 信号 为 PLIC 接口 的 ICB 总 线 信 号 ， 参 见 第 12 X€ T CR X ICB 的 信息 和 PLIC 接口 信息 
plic icb cmd wmask 
plic icb rsp valid 
plic icb rsp ready 
plic icb rsp err 


plic icb rsp rdata 
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续 表 

信 号 名 LES 
dbg irq r 
cmt dpc 
cmt dpc ena 
cmt dcause 
cmt dcause ena 
wr desr ena 此 组 信号 用 于 固定 与 SoC 中 的 调试 模块 (Debug Module) 连接 ， 普 通用 户 无 须 关 注 此 部 分 接 


wr dpc ena 口 。 请 参见 第 14 章 了 解 更 多 调试 模块 的 信息 
wr dscratch ena 

wr esr nxt 

desr r 

dpc r 

dscratch r 


0 ST TO SG T M TG 


本 章 仅 对 蜂鸟 E200 处 理 器 核 的 设计 进行 宏观 的 介绍 ， 帮 助 读 者 从 整体 认识 蜂鸟 E200 
处 理 器 的 设计 要 诀 。 请 读者 继续 阅读 后 续 草 节 ， 有 针对 性 地 学 习 处 理 器 不同 部 分 的 细节 ， 以 
透彻 地 了 解 蜂 乌 E200 处 理 器 核 的 设计 。 


$5659 流水 线 不 是 流水 账 
一 一 蜂鸟 E200 流水 线 介绍 


记 账 本 
早上 买 早 餐 化 了 5 块 
坐 地 铁 花 5 块 


晚饭 20 块 
总 计 : 90 块 
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本 章 将 讨论 处 理 器 的 一 个 重要 的 基础 知识 
联 ， 仅 取 一 个 谐音 而 已 。 

熟悉 计算 机 体系 结构 的 读者 一 定 知道 ， 言 及 处 理 器 微 架 构 ， 几 乎 必 谈 其 流水 线 。 处 理 器 
的 流水 线 结 构 是 处 理 器 微 架构 最 基本 的 一 个 要 素 , 犹如 汽车 底盘 对 于 汽车 一 般 具 有 基石 性 的 
作用 , 它 承 载 并 决定 了 处 理 器 其 他 微 架 构 的 细节 。 本 章 将 简要 介绍 处 理 器 的 一 些 常见 流水 线 
结构 ， 并 介绍 蜂鸟 E200 处 理 器 核 的 流水 线 微 架构 。 


6.1 ES ELE 


6.1.1 从 经 典 的 五 级 流水 线 说 起 


流水 线 的 概念 来 源 于 工业 制造 领域 ， 以 汽车 装配 为 例 来 解释 流水 线 的 工作 方式 ， 假 设 装 
配 一 辆 汽车 需要 4 个 步骤 。 

e 第 1 步 : 冲压 ， 制 作 车 身 外 过 和 底盘 等 部 件 。 

。 第 2 步 : 焊接 ， 将 冲压 成 形 后 的 各 部 件 焊接 成 车 喘 。 

e 第 3 步 : 涂 装 ， 将 车 身 等 主要 部 件 清洗 、 化 学 处 理 、 打 磨 、 喷 漆 和 烘 干 。 

e 第 4 步 : 总 装 ， 将 各 部 件 〈 包 括 发 动机 和 问 外 采购 的 零 部 件 ) 组 装 成 车 。 

同时 需要 对 应 冲压 、 焊 接 、 涂 装 和 总 装 4 项 工作 的 工人 。 最 简单 的 方法 是 一 辆 汽车 依次 经 
过 上 述 4 个 步骤 装配 完成 之 后 ， 下 一 辆 汽车 才 开 始 进行 装配 ， 最 早期 的 工业 制造 就 是 采用 的 这 
种 原始 的 方式 ， 即 同一 时 刻 只 有 一 辆 汽车 在 装配 。 不 久之 后 人 们 发 现 ， 一 辆 汽车 在 某 个 时 段 中 
进行 装配 时 ， 其 他 3 个 工人 都 处 于 闲置 状态 ， 显 然 这 是 对 资源 的 极 大 浪费 ， 于 是 思考 出 能 有 效 
利用 资源 的 新 方法 。 即 在 第 一 辆 汽车 经 过 冲压 进入 焊接 工序 时 ， 立 刻 开 始 进 行 第 二 辆 汽车 的 冲 
压 ， 而 不 是 等 到 第 一 辆 汽车 经 过 全 部 4 个 工序 后 才 开 始 。 这 样 在 后 续 生 产 中 就 能 够 保证 4 个 工 
人 一 直 处 于 运行 状态 ， 不 会 造成 人 员 的 朵 置 。 这 样 的 生产 方式 就 好 似 流水 川 流 不 妃 ， 因 此 被 称 
为 流水 线 。 

计算 机 体系 结构 教材 中 被 提 及 最 多 的 经 典 MIPS 五 级 流水 线 如 图 6-1 所 示 。 在 此 流水 线 
中 一 条 指令 的 生命 周期 分 为 如 下 步骤 。 

(1) 取 指 

。 指令 取 指 (Instruction Fetch) 是 指 将 指令 从 存储 器 中 读 取 出 来 的 过 程 。 

(2) 主 码 

。 指令 译 码 (Instruction Decode) 是 指 将 从 存储 器 中 取出 的 指令 进行 翻译 的 过 程 。 经 过 

译 码 之 后 得 到 指令 需要 的 操作 数 寄存 器 索引 ， 可 以 使 用 此 索引 从 通用 寄存 器 组 
(Register File，Regfile) 中 将 操作 数 读 出 。 


“流水 线 ”， 和 本 章 标题 流水 账 无 任何 关 
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Instruction Decode 
Register Fetch 


ID 


Write Back 
WB 


Memory Access 


MEM 


Instruction Fetch 
IF 


Execute 
Address Calc. 
EX 

















WB Data 
6-1 MIPS 五 级 流水 线 结构 图 


(3) 执行 
。 指令 译 码 之 后 所 需要 进行 的 计算 类 型 都 已 得 知 ， 并 且 已 经 从 通用 寄存 器 组 中 读 取 出 
了 所 需 的 操作 数 ， 那 么 接 下 来 便 进 行 指令 执行 (Instruction Execute )。 指 令 执行 是 指 
对 指令 进行 真正 运算 的 过 程 。 壁 如， 如 果 指 令 是 一 条 加 法 运算 指令 ， 则 对 操作 数 进 
行 加 法 操作 ;如果 是 减法 运算 指令 ， 则 进行 减法 操作 。 
e 在 “执行 2 阶段 的 最 常见 部 件 为 算术 逻辑 部 件 运算 器 (Arithmetic Logical Unit; ALU), 
作为 实施 具体 运算 的 硬件 功能 单元 。 
(4) 访 存 
。 存储 器 访问 指令 往往 是 指令 集中 最 重要 的 指令 类 型 之 一 , 访 存 (Memory Access) 是 
指 存储 器 访问 指令 将 数据 从 存储 器 中 读 出 ， 或 者 写 入 存储 器 的 过 程 。 
(5) 写 回 
e 写 回 (Write-Back) 是 指 将 指令 执行 的 结果 写 回 通用 寄存 占 组 的 过 程 。 如 果 是 普通 运 
算 指令 ， 该 结果 值 来 自 于 “执行 ”阶段 计算 的 结果 ; 如 果 是 存储 器 读 指令 ， 该 结果 
来 自 于 “ 访 存 ”阶段 从 存储 器 中 读 取 出 来 的 数据 。 
在 工业 制造 中 采用 流水 线 可 以 提高 单位 时 间 的 生产 量 , 同样 在 处 理 器 中 采用 流水 线 设 计 
也 有 助 于 提高 处 理 器 的 性 能 。 以 上 述 的 五 级 流水 线 
为 例 ， 由 于 前 一 条 指令 在 完成 了 “ 取 指 ”进入 “ 译 
码 ” 阶 段 后 ， 下 一 条 指令 马上 就 可 以 进入 “ 取 指 ” 
阶段 ， 依 次 类 推 。 如 图 6-2 所 示 ， 如 果 流 水 线 没 有 
停顿 ， 理 论 上 可 以 取得 每 个 时 钟 周期 都 完成 一 条 指 图 6:2 MIPS TARKAT 
令 的 性 能 。 
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6.12 可否 不 要 流水 线 一 一 流水 线 和 状态 机 的 关系 


如 上 一 节 所 述 ， 在 绝 大 多 数 的 情况 下 ， 言 及 处 理 器 微 架 构 ， 几 乎 必 谈 流水 线 。 那 么 ， 我 
们 能 人 否 挑战 一 下 权威 提出 一 个 有 意思 的 问题 : 处 理 器 难道 就 一 定 需 要 流水 线 吗 ? 可 和 否 不 要 流 
水 线 呢 ? 
在 回答 这 个 问题 之 前 ， 我 们 先 探讨 下 流水 线 的 本 质 。 
。 流水 线 并 不 限于 处 理 嚣 设计， 在 所 有 的 ASIC 电路 实现 中 都 广泛 采用 流水 线 的 思想 。 
流水 线 本 质 上 可 以 理解 为 一 种 以 面积 换 性 能 (Trade Area for Performance)、 以 空间 
换 时 间 (Trade Space for Timing) 的 手段 。 以 五 级 流水 线 为 例 ， 其 增加 了 5 组 寄存 器 ， 
每 一 个 流水 线 级 数 内 部 都 有 各 上 自 的 组 合 人 逻辑 数据 通路 ， 彼 此 之 间 没 有 复 用 资源 ， 
此 其 面积 开销 是 比较 大 的 。 但 是 由 于 可 以 让 不 同 的 流水 线 级 数 同 时 做 不 同 的 事情 ， 而 
达到 流水 的 效果 ， 提 高 了 性 能 ， 优 化 了 时 序 ， 增 加 了 吞吐 率 。 
。 与 流水 线 相对 应 的 另外 一 种 策略 是 状态 机 ， 状 态 机 是 流水 线 的 “ 取 反 ”， 同 样 在 所 有 
的 ASIC 电路 实现 中 都 广泛 采用 。 状 态 机 本 质 上 可 以 理解 为 是 一 种 以 性 能 换 面 积 
(Trade Performance for Area)、 以 时 间 换 空间 (Trade Timing for Space) 的 手段 。 
。 “流水 线 ” 和 “状态 机 ”的 关系 ， 还 有 一 种 说 法 称 之 为 “展开 ”和 “ 折 有 登 ” 的 关系 。 
本 质 上 都 是 一 种 电路 设计 时 ， 选 择 侧重 时 间 〈( 性 能 ) 还 是 空间 (面积 ) 的 一 种 取舍。 
通过 上 述 分 析 ， 假 设 处 理 器 不 采用 流水 线 ， 而 是 使 用 一 个 状态 机 来 完成 ， 则 需要 多 个 时 
钟 周 期 才能 完成 一 条 指令 的 所 有 操作 ， 每 个 时 钟 周 期 完成 状态 机 的 一 个 状态 〈 分 别 为 取 指 、 
译 码 、 执 行 、 访 存 和 写 回 )。 通 过 使 用 状态 机 ， 可 以 省 掉 上 述 流水 线 中 的 寄存 器 开销 ， 还 可 
以 复 用 组 合 逻 辑 数据 通路 ， 因 此 面积 开销 比较 小 。 但 是 每 条 指令 都 需要 5 个 周期 才能 完成 ， 
否 吐 率 和 性 能 很 差 。 
谈 及 此 处 ， 就 不 得 不 提 及 8 位 单片机 时 代 的 “传奇 老 炮 儿 ”8051 内 核 , 早期 原始 的 8051 
内 核 微 架 构 就 是 采用 了 类 似 状 态 机 的 实现 方式 而 不 是 流水 线 。 回 到 最 开始 我 们 提出 的 问题 ， 
处 理 器 可 否 不 要 流水 线 ? 答案 是 : 当然 可 以 ， 8051 内 核 就 没有 流水 线 。 
所 以 说 从 功能 能 上 来 讲 ， 处 理 器 完全 可 以 不 使 用 流水 线 ， 而 使 用 状态 机 的 方式 来 实现 ， 
只 不 过 由 于 这 种 方式 性 能 比较 差 ， 在 现代 处 理 器 设计 中 比较 罕见 而 已 。 


6.1.3 RANER RAR E ANDATI HEIKER B) AR IE 


Ee rack segetes AEEESRH)TEBRE, 基本 上 是 现代 处 理 器 的 必 备 要 素 。 那 么 流 
水 线 的 级 数 〈 又 称 深 度 ) 多 少 最 好 呢 ? 要 回答 这 个 问题 ， 束 需要 了 解 流水 线 的 深浅 各 目的 优 
务 。 此 处 有 一 个 常见 面试 题 ， 处 理 器 的 流水 线 是 否 越 深 越 好 ? 在 此 我 们 给 出 答案 。 
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。 早期 的 经 典 流水 线 是 五 级 流水 线 ， 分 别 为 取 指 、 译 码 、 执 行 、 访 存 和 写 回 。 现代 的 处 
理 器 往往 具有 极 深 的 流水 线 级 数 ， 壁 如 高 达 十 几 级 ， 或 者 二 十 几 级 的 深度 。 流 水 线 就 
像 一 根 黄 瓜 ， 切 2 刀 下 去 得 到 的 每 一 截 长 度 和 切 20 刀 下 去 得 到 的 每 一 截 长 度 肯 定 是 
不 一 样 的 。 流 水 线 的 级 数 越 多 ， 意 味 着 流水 线 被 切 得 越 细 ， 每 一 级 流水 线 内 容纳 的 硬 
件 逻 辑 便 越 少 。 熟 悉数 字 同 步 电路 设计 的 读者 应 该 比较 熟悉 ， 在 两 级 寄存 器 〈 每 一 级 
流水 线 由 寄存 器 组 成 ) 之 间 的 硬件 逻辑 越 少 ， 则 意味 能 够 运行 到 更 高 的 主 频 。 因 此 ， 
现代 的 处 理 器 流水 线 极 深 主 要 是 由 于 处 理 器 追求 高 频 的 指标 所 驱使 。 高 端的 ARM 
Cortex-A 系列 由 于 有 十 几 级 的 流水 线 ， 所 以 能 够 运行 到 高 达 2GHz 的 主 频 ， 而 Intel 
的 x86 处 理 器 甚至 采用 几 十 级 的 流水 线 深度 将 主 频 推 到 3—4GHz 的 高 度 。 主 频 越 高 
也 意味 着 流水 线 的 吞吐 率 越 高 ， 从 而 性 能 越 高 ， 这 是 流水 线 加 深 的 正面 意义 。 
e 由 于 每 一 级 流水 线 都 由 寄存 器 组 成 ， 更 多 的 流水 线 级 数 要 消耗 更 多 的 寄存 器 ， 以 及 
更 多 的 面积 开销 。 这 是 流水 线 加 深 的 负面 意义 。 
e 由 于 每 一 级 流水 线 需要 进行 握手 ， 流 水 线 最 后 一 级 的 反 压 信号 可 能 会 一 直 串 扰 到 最 
前 一 级 造成 严重 的 时 序 问题 ， 需 要 使 用 一 些 比较 高 级 的 技巧 来 解决 此 类 反 压 时 序 问 
题 (第 6.3 节 将 进一步 论述 )。 这 是 流水 线 加 深 的 负面 意义 。 
。 较 深 的 处 理 器 流水 线 还 有 一 个 问题 ， 那 就 是 由 于 在 流水 线 的 取 指 令 阶 段 无 法 得 知 条 
件 跳 转 的 结果 是 到 底 跳 还 是 不 跳 ， 因 此 只 能 进行 预测 ， 而 到 了 流水 线 的 末端 才能 够 
通过 实际 的 运算 得 知 该 分 支 是 真 的 该 跳 还 是 不 该 跳 。 如 果 发 现 真 实 的 结果 〈 壁 如 该 
WE) 与 之 前 预测 的 结果 ( 壁 如 预测 为 不 跳 〉 不 相符 ， 则 意味 着 预测 失败 ， 需 要 将 所 
有 预 取 的 错误 指令 流 全 部 丢弃 挥 。 重 新 取 正 确 的 指令 流 ， 这 个 过 程 叫 作 “ 流 水 线 冲 
l| (Pipeline Flush)”。 虽 然 可 以 使 用 分 文 预测 喜来 保证 前 期 的 分 文 预测 尽 可 能 准确 ， 
但 是 也 无 法 做 到 万 无 一 失 。 那 么 ， 流 水 线 的 深度 越 深 ， 意 味 着 已 经 预 取 了 更 多 的 错 
误 指令 流 ， 需 要 将 其 全 部 抛弃 然后 重启 ， 不 仅 白 白浪 费 了 功 耗 还 造成 了 性 能 的 损 
失 。 流 水 线 越 深 ， 则 意味 着 浪费 和 损失 越 严 重 ， 流 水 线 越 线 ， 则 浪费 和 损失 越 少 。 
这 是 流水 线 加 深 的 男 一 个 主要 的 负面 意义 。 
综 上 ， 所 谓 “ 深 处 种 菱 浅 种 稻 ， 不 深 不 浅 种 荷花 ”流水 线 的 不 同 深度 省 有 其 优 缺 点 ， 
需要 根据 不 同 的 应 用 背景 进行 合理 的 选择 。 
由 于 处 理 器 流水 线 深浅 的 不 同 优 劣 ， 根 据 不 同 的 应 用 场景 ， 当 今 处理 器 的 流水 线 深度 在 
向 着 两 个 不 同 的 极端 发 展 ， 一 方面 级 数 越 来 越 深 ， 另 一 方面 又 越 来 越 线 ， 下 面 结合 不 同 的 商 
用 处 理 器 例子 予以 探讨 。 


6.1.4 回 上 生长 一 一 越 来 越 深 的 流水 线 


现代 的 高 性 能 处 理 器 相 比 最 早期 的 处 理 器 明显 存在 着 流水 线 越 来 越 深 的 现象 , 其 驱动 因 
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素 很 简单 ， 那 就 是 追求 更 高 的 主 频 以 获取 更 高 的 吞吐 率 和 性 能 。 

以 最 知名 的 ARM Cortex-A 系列 处 理 器 IP 为 例 ，Cortex-A7 主打 的 低 功 耗 前 提 下 的 能 效 
比 ， 其 流水 线 级 数 为 8 级 ; 而 Cortex-A15 主打 高 性 能 ， 其 流水 线 深度 为 15 级 。 

当然 流水 线 越 来 越 深 也 需 有 其 限度 , 兽 有 某 些 商业 处 理 器 产品 一 味 地 追求 极端 流水 线 深 
度 〈 达 到 几 十 级 ) 反而 遭遇 失败 的 例子 ， 目 前 最 新 的 Intel 处 理 器 和 ARM 高 性 能 Cortex-A 
系列 处 理 器 的 流水 线 深 度 都 在 十 几 级 的 范围 。 


6.1.5 回 下 生长 一 一 越 来 越 浅 的 流水 线 


现代 低 功 耗 处 理 器 的 另外 一 个 趋势 也 存在 着 流水 线 越 来 越 浅 的 现象 , 其 驱动 因素 同样 很 
简单 ， 那 就 是 在 性 能 够 用 的 前 提 下 追求 极 低 的 功 耗 。 

以 最 知名 的 ARM Cortex-M 系列 处 理 器 IP 为 例 ，2004 年 发 布 的 Cortex-M3 处 理 器 核 的 
流水 线 级 数 只 有 三 级 , 2009 年 发 布 的 Cortex-MO 处 理 器 核 的 流水 线 级 数 也 只 有 三 级 ,而 2012 
年 发 布 的 Cortex-M0+ 处 理 器 核 的 流水 线 级 数 反 而 只 有 二 级 ， 流 水 线 级 数 变 得 越 来 越 少 ， 因 
此 ARM 也 宣传 Cortex-M0+ 处 理 嚣 核 为 世界 上 能 效 比 最 高 的 处 理 器 核 。 

二 级 的 流水 线 深度 似乎 已 经 浅 到 底 了 ， 那 是 不 是 接 下 来 要 发 布 只 有 一 级 深度 的 流水 线 
T? 当 深 度 变 为 1 之 后 也 就 谈 不 上 流水 线 了 ， 其 整体 也 就 变 成 一 个 单 周 期 的 组 合 逻 辑 。 在 众 
多 的 计算 机 体系 结构 教学 案例 中 我 们 确实 见 到 过 很 多 流水 线 深度 为 1 的 处 理 器 核 , 从 功能 上 
来 说 其 仍然 可 以 完成 处 理 器 的 所 有 功能 ， 只 不 过 主 频 相当 之 低 。 有 没有 商业 的 处 理 器 核 真 的 
只 有 一 级 的 流水 线 深 度 ， 作 者 在 此 无 法 确定 ， 但 是 别 筷 了 第 6.1.2 节 中 提 及 的 8051 内 核 ， 别 
说 一 级 的 流水 线 深 度 ， 连 状态 机 都 用 上 了 。 


6.1.06 ”总结 


至 此 ， 本 节 人 简单 重 温 了 处 理 器 流水 线 的 相关 概念 。 这 些 概念 是 计算 机 体系 结构 中 很 基 
础 的 知识 , 本 书 限于 篇 幅 在 此 不 做 过 多 赣 述 。 知 完全 无 处 理 器 知识 背景 的 读者 仍 无 法 理解 ， 
可 以 参见 维基 百科 上 的 词 条 网 页 〈 请 在 维基 百科 中 搜索 “Classic_ RISC pipeline") 了 解 更 
多 信息 。 


6.2 处 理 器 流水 线 中 的 乱 序 


处 理 器 中 发 射 、 派 直 、 执 行 、 写 回 的 顺序 也 是 处 理 老 微 架 构 设 计 中 非常 重要 的 一 环 ， 可 
以 衍生 出 “顺序 ”和 “ 乱 序 ”的 概念 ， 本 书 将 在 第 8 章 对 此 进行 专门 论述 。 





84 | 流水 线 不 是 流水 账 一 一 蜂鸟 E200 流水 线 介 绍 


6.3 EX: suus 


Ex JEU ART EEUU HRIBIHCORJZI ERA ALTE, mu T ASIC 电路 设计 有 较 
深 的 经 验方 能 理解 ， 初 学 者 可 以 忽略 此 节 无 须 深究 。 
第 6.1.4 节 中 提 到 ， 流 水 线 越 深 由 于 每 一 级 流水 线 需要 进行 握手 ， 流 水 线 最 后 一 级 的 
反 压 信号 可 能 会 一 直 串 扰 到 最 前 一 级 造成 严重 的 反 压 (Back-pressure) 时 序 问题 ， 需 要 使 用 
一 些 比 较 高 级 的 技巧 来 解决 这 些 时 序 问 题 。 在 现代 处 理 器 设计 中 ， 通 常 有 如 下 3 种 方法 。 
。 取消 握手 : 此 方法 能 够 杜绝 反 压 的 发 生 ， 时 序 表现 非常 好 。 但 是 取消 握手 ， 即 意味 
着 流水 线 中 的 每 一 级 并 不 会 与 其 下 一 级 进行 握手 ， 可 能 会 造成 功能 错误 或 者 指令 丢 
失 。 因 此 这 种 方法 往往 需要 配合 其 他 的 机 制 ， 璧 如 重 执行 (Replay)、 预 留 大 缓存 等 。 
简 而 言 之 ， 此 方法 比较 激进 ， 辅 以 一 系列 其 他 的 配置 机 制 ， 硬 件 总 体 的 复杂 度 会 比 
较 大 ， 只 有 在 一 些 非常 高 级 的 处 理 器 设计 中 才 会 用 到 。 
。 加 入 乒乓 缓存 : 加 入 乒乓 缓存 (Ping-pong Buffer) 是 一 种 用 面积 换 时 序 的 方法 ， 也 是 在 
解决 反 压 的 最 简单 方法 。 通 过 使 用 乒乓 缓存 (有 两 个 表 项 ) 蔡 换 抒 普 通 的 一 级 流水 线 ( 只 
有 一 个 表 项 )， 可 以 使 得 此 级 流水 线 向 上 一 级 流水 线 的 握手 接收 信和 与 仅 关 注 厂 乓 缓存 中 
是 否 有 一 个 以 上 有 空 的 表 项 即 可 ， 而 无 需 将 下 一 级 的 握手 接收 信号 串扰 至 上 一 级 。 
。 加 入 前 向 旁 路 缓存 :， 加 入 前 问 旁 路 缓存 ‘Forward Bypass Buffer) 也 是 一 种 用 面积 换 
时 序 的 方法 ， 是 在 解决 反 压 时 的 一 种 非常 巧妙 的 方法 。 旁 路 缓存 仅 只 有 一 个 表 项 ， 
由 于 增加 了 这 一 个 额外 的 缓存 表 项 ， 可 以 将 后 回 的 握手 信号 时 序 路 径 砍 断 ， 但 是 对 
前 向 路 径 不 受 影 响 , 因此 可 以 广泛 使 用 于 握手 接口 。 蜂 乌 E200 即 于 设计 中 采用 此 方 
法 ， 有 效 地 解决 了 多 处 反 压 造成 的 时 序 上 瓶颈。 
以 上 解决 反 压 的 技术 方法 ， 不 仅 在 处 理 器 设计 中 能 够 用 到 ， 而 且 在 普通 的 ASIC 电路 设 
计 中 也 会 经 常用 到 。 








6.4 EXEZZCIIE 


处 理 器 的 流水 线 设 计 中 男 外 一 个 问题 便 是 流水 线 中 的 冲突 (Hazards)， 主 要 分 为 资源 促 
突 和 数据 冲突 。 


6.4.1 流水 线 中 的 资源 冲突 
资源 冲突 是 指 流水 线 中 硬件 资源 的 冲突 ,最 常见 的 是 运算 单元 的 冲突 ， 警 如 除法 器 需要 
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多 个 时 钟 周期 才能 完成 运算 。 因 此 在 前 一 个 除法 指令 完成 运算 之 前 , 新 的 除法 指令 如 果 也 需 
要 除法 器 ， 则 会 存在 着 资源 冲突 。 在 处 理 器 的 流水 线 中 硬件 资源 冲突 种 类 还 有 较 多 ， 在 此 不 
一 一 殉 述 。 解 决 资源 冲突 可 以 通过 复制 硬件 资源 或 者 流水 线 停顿 等 待 硬件 资源 的 方法 解决 。 


6.4.2 ”流水 线 中 的 数据 冲突 


数据 冲突 是 指 不 同 的 指令 之 间 的 操作 数 存 在 着 数据 相关 性 造成 的 冲突 , 常见 的 数据 相关 
性 如 下 。 

。 WAR (Write-After-Read) 相关 性 ， 又 称 先 读 后 写 相关 性 : 表示 “后 序 执行 的 指令 需 
要 与 回 的 结果 寄存 器 索引 ”与 “前 序 执行 的 指令 需要 读 取 的 源 操作 数 寄 存 器 索引 ? 
相同 造成 的 数据 相关 性 。 因 此 从 理论 上 来 讲 ， 在 流水 线 中 “后 序 指令 ”一 定 不 能 比 
MEA WAR 相关 性 的 “前 序 指令 ” 先 执行 ， 否 则 “后 序 指令 ” 先 写 回 了 结果 至 通 
用 寄存 器 组 中 ,“ 前 序 指令 ”再 读 取 操 作 数 时 ， 就 会 读 到 错误 的 数值 。 

e WAW CWrite-After-Write) 相关 性 ， 又 称 先 写 后 写 相关 性 : 表示 “后 序 执行 的 指令 需 
要 写 回 的 结果 寄存 器 索引 ”与 “前 序 执 行 的 指令 需要 写 回 的 结果 寄存 器 索引 ”相同 
造成 的 数据 相关 性 。 因 此 从 理论 上 来 讲 ， 在 流水 线 中 “后 序 指令 ”一 定 不 能 比 和 它 
有 WAW 相关 性 的 “前 序 指令 ” 先 执行 ， 否 则 “后 序 指令 ” 先 写 回 了 结果 至 通用 寄 
存 器 组 中 ,“ 前 序 指令 ”再 写 回 结果 至 通用 寄存 器 组 中 就 会 将 其 覆盖 。 

。 RAW (Read-After-Write) 相关 性 ， 又 称 先 写 后 读 相 关 性 : 表示 “后 序 执行 的 指令 需 
要 读 取 的 源 操作 数 寄存 器 索引 ”与 “前 序 执行 的 指令 需要 写 回 的 结果 寄存 器 索引 ” 
相同 造成 的 数据 相关 性 。 因 此 从 理论 上 来 讲 ， 在 流水 线 中 “后 序 指令 ”一 定 不 能 比 
MEA RAW 相关 性 的 “前 序 指令 ” 先 执 行 ， 否 则 “后 序 指令 ” 便 会 从 通用 寄存 器 


组 中 读 回 错误 的 源 操作 数 。 
以 上 的 3 种 相关 性 中 ，RAW 属于 真 数 据 相 关 。 
解决 数据 冲突 的 第 见方 法 如 下 。 
(1) WAW 和 WAR 可 以 通过 寄存 器 重 命名 的 方法 将 相关 性 去 除 ， 从 而 无 须 担 心 其 执行 


顺序 。 

。 寄存 器 重 命 名 技术 在 Tomasulo 算法 中 通过 保留 站 和 ROB (Re-Order Buffer) 完成 ， 
或 者 采用 纯 物理 寄存 器 〈 而 不 用 ROBO 的 方式 完成 。 有 关 ROB 和 纯 物理 寄存 器 的 
作用 和 信息 在 第 8 章 中 对 “指令 发 射 、 铂 遗 、 执 行 、 写 回 的 顺序 和 常见 策略 ”的 介 
绍 中 将 进一步 论述 。 

(2) 之 所 以 称 RAW 为 真 数据 相关 ， 是 因为 其 没有 办 法 通过 寄存 器 重 命名 的 方法 将 相关 

性 去 除 。 一 旦 产生 RAW 相关 性 ， 后 序 的 指令 一 定 要 使 用 和 它 有 RAW 数据 相关 性 的 前 序 指 
令 执 行 完 成 的 结果 ， 从 而 造成 流水 线 的 等 待 停顿。 为 了 能 够 尽 可 能 减少 流水 线 停 顿 带 来 的 性 
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能 损失 ， 可 以 使 用 “动态 调度 ”的 方法 。 动 态 调度 的 思想 本 质 上 可 以 归结 于 以 下 方面 。 


一 方面 采用 数据 旁 路 传播 《Data Bypass and Forward) 技术 ， 尽 可 能 让 前 序 指令 的 计 
算 结果 更 快 地 劳 路 传播 给 后 序 相 关 指 令 的 操作 数 。 

为 一 方面 尽 可 能 地 让 后 序 相 关 指 令 在 等 待 的 过 程 中 不 阻塞 流水 线 ， 而 让 其 他 无 关 的 
指令 继续 顺利 执行 。 

早期 的 Tomasulo 算法 中 通过 保留 站 可 以 达到 这 两 方面 的 功效 , 但 是 保留 站 由 于 保存 
了 操作 数 ， 无 法 做 到 很 大 的 深度 否则 面积 和 时 序 的 开销 巨大 )。 

最 新 的 高 性 能 处 理 器 普遍 采用 在 每 个 运算 单元 前 配置 乱 序 发 射 队列 〈Issue Queue?) 
的 方式 ， 发 射 队列 仅 追 踪 RAW 相关 性 ,而 并 不 存放 操作 数 ， 因 此 可 以 做 到 很 深 ( 臂 
如 16 个 表 项 )。 在 发 射 队 列 中 的 指令 一 旦 相关 性 解除 之 后 ， 再 从 发 射 队 列 中 发 射出 
来 读 取 物 理 寄 存 器 组 (Physical Register File)， 然 后 发 送 给 运算 单元 开始 计算 。 


有 关 处 理 器 的 数据 相关 性 问题 和 包 插 动态 调度 技术 在 内 的 解决 方法 , n RS DE T E JLF 
可 以 单独 成 书 ， 本 书 限于 篇 幅 只 能 予以 简 述 。 有 关 Tomasulo 算法 的 细节 请 参见 维基 百科 词 
条 网 页 (请 在 维基 百科 中 搜索 “Tomasulo algorithm”)， 和 有 关 物 理 寄存 器 重 命名 的 细节 请 
参见 维基 百科 词 条 网 页 〈 请 在 维基 百科 中 搜索 “Register renaming”)， 感 兴趣 的 读者 可 以 自 
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6.5 KAZA EEEE: 


6.5.1 ”流水线 总 体 结构 


蜂鸟 E200 处 理 器 的 总 体 结 构 如 图 6-3 所 示 ， 要 
点 如 下 。 





流水 线 级 数 为 几 级 ， 原 因 如 下 。 


(D 流水 线 的 第 一 级 为 “ 取 指 (由 IFU seo". — NN J 
(2) 蜂 鸟 E200 处 理 器 核 很 难 严谨 界定 它 的 完整 pe 
| 


“ 译 码 (由 EXU PER)” “HAT (由 EXU Fg 
中 完成 )” 和 “ 写 回 (由 WB 完成 )” 均 处 于 l^ 1 I 
ET 图 6-3 ”蜂鸟 E200 处 理 器 核 的 流水 线 结构 
而 “ 访 存 (由 LSU 完成 )” 阶 段 处 于 EXU apa 

之 后 的 第 三 级 流水 线 , 但 是 LSU 写 回 的 结果 仍然 需要 通过 WB 模块 写 回 通用 寄存 器 
组 (Register File, Regfile). 
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。 因此 严格 来 讲 ， 蜂 鸟 E200 是 一 个 变 长 流水 线 结构 。 

由 于 蜂 乌 E200 处 理 器 核 的 流水 线 的 按 序 主体 是 位 于 第 一 级 的 “ 取 指 ”和 位 于 第 二 级 的 
“执行 ”和 “ 写 回 ”， 因 此 我 们 非 严 说 地 定义 蜂 乌 E200 处 理 器 核 的 流水 线 深度 为 二 级 。 

本 书后 续 章节 将 会 具体 介绍 流水 线 中 的 各 个 主要 部 分 和 单元 。 

e. 有 关 取 指 (IFU 单元 ) 的 实现 细节 ， 请 参见 第 7 章 。 

e 有 关 执 行 (EXU 单元 ) 和 长 指令 (Long Pipes) 的 实现 细节 ， 请 参见 第 8、9 章 。 

e RHE] (WB 单元 ) 的 实现 细节 ， 请 参见 第 10 章 。 

。 有 关 访 存 (LSU 单元 ) 的 实现 细节 ， 请 参见 第 11 章 。 

。 取 指 和 访 存 知 需 要 访问 外 部 存储 器 ， 均 需 通过 BIU 单元 完成 ， 有关 BIU 单元 的 实现 

细节 ， 请 参见 第 12 章 。 
e。 "HX EAI 协 处 理 器 的 更 多 信息 ， 请 参见 第 16 章 。 


6.5.2 流水线 中 的 冲突 


蜂鸟 E200 处 理 器 核 流 水 线 中 的 冲突 处 理 (包括 资源 冲突 和 数据 冲突 ) 主要 在 EXU 单元 
中 解决 ， 请 参见 第 8.3.7 节 了 解 更 多 实现 细节 。 


|: EERE E 


蜂鸟 E200 ARH ir H ERRERA RERA DUE T RERNE RE 
的 目标 ， 采 用 了 以 两 级 按 序 流 水 线 为 主体 ， 辅 以 其 他 组 件 流 水 线 长 度 可 变 的 一 套 小 巧 而 有 特 
点 的 流水 线 结 构 ， 既 实现 了 低 功 耗 的 目标 ， 又 达到 了 一 定 的 性 能 。 

本 章 在 此 仅 对 蜂鸟 E200 处 理 器 的 流水 线 总 体 结 构 加 以 概述 ， 读 者 可 以 通过 阅读 后 续 章 
节 中 对 各 个 单元 部 分 的 更 多 介绍 来 进一步 理解 蜂 乌 E200 设计 的 精髓 。 


第 7 章 万 事 开头 难 吗 
一 一 一 切 从 取 指 令 开始 





万 事 开 头 难 
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在 上 一 章 我 们 介绍 了 处 理 器 流水 线 的 总 体 结构 ， 处 理 器 流水 线 中 第 一 步 是 “ 取 指 ”。 所 
谓 万 事 开 头 难 ， 本 章 将 简要 介绍 处 理 器 的 “ 取 指 ”功能 ， 并 介绍 蜂 乌 E200 处 理 器 核 取 指 单 
元 (Instruction Fetch Unit, IFU) 的 微 架 构 和 源码 分 析 。 


7.1 


7.4.4 PIRA 


处 理 器 执行 的 汇编 指令 流 示例 如 图 7-1 所 示 。 每 条 指令 在 存储 器 空间 中 所 处 的 地 址 称 为 
它 的 指令 PC (Program Counter)。 取 指 (Instruction Fetch) 是 指 处 理 器 核 将 指令 从 存储 器 中 
读 取出 来 的 过 程 (按照 其 指令 PC 值 对 应 的 存储 器 地 址 )。 
取 指 的 终极 目标 是 以 最 快 的 速度 且 连 续 不 断 地 从 存储 器 中 取出 指令 供 处 理 器 核 执 行 , 核 
心 要 点 是 “ 快 ” 和 “连续 不 断 ”。 为 了 能 够 达到 这 两 个 目标 ， 我 们 以 图 7-1 中 的 示例 先 分 析 
常规 RISC 架构 汇编 指令 流 的 特点 。 
e 对 于 非 分 支 跳 转 指令 ， 如 图 7-1 所 示 ， 从 PC 值 为 0x80002150 处 至 PC 值 为 0x8000215e 
处 之 间 的 指令 都 是 非 分 支 跳 转 指令 ， 处 理 器 需要 按 顺 序 执 行 这 些 指令 ， 指 令 PC fü 
逐条 指令 连续 增加 。 因 此 处 理 器 在 取 指 的 过 程 中 可 以 按 顺 序 从 存储 器 中 读 取出 指令 。 
e 对 于 分 支 跳 转 指 令 ， 处 理 器 执行 了 这 条 指令 后 ， 如 果 该 跳 转 指令 的 条 件 成 立 需 要 友 
生 跳 转 , 则 会 跳 转 至 男 外 一 个 不 连续 的 PC 值 处 。 如 图 7-1 所 示 , 从 PC 值 为 0x80002160 
处 的 bne 指令 ， 如 果 操 作 数 a6 和 a3 寄存 器 中 的 值 不 相等 ， 则 需要 发 生 跳 转 去 执行 
PC 为 0x80002150 处 的 指令 。 因 此 处 理 器 在 取 指 的 过 程 中 , 理论 上 也 需要 从 新 的 PC 
值 对 应 的 存储 器 地 址 读 取 出 指令 。 
。 指令 的 编码 长 度 可 以 不 相等 ， 如 图 7-1 所 示 ， 有 的 指令 编码 宽度 是 16 位 的 ， 而 有 的 
指令 编码 宽度 是 32 位 的 。 对 于 宽度 为 32 位 的 指令 ， 其 对 应 的 PC 地 址 可 能 与 32 位 
地 址 边界 不 对 齐 , 壁 如 图 7-1 中 PC 值 为 0x8000217a 处 的 32 位 指令 所 处 的 存储 器 地 
址 (0x8000217a) 便 与 32 位 地 址 边界 不 对 齐 〈 无 法 被 4 整除 )。 
综 上 ， 结 合 RISC 架构 汇编 指令 流 的 特点 ， 处 理 器 需要 以 “ 快 ” 和 “连续 不 断 ” 的 标准 
从 存储 器 中 取出 指令 ， 就 需要 能 够 做 到 如 下 性 能 。 
e 对 于 非 分 支 跳 转 指令 ， 能 够 连续 不 断 地 按 顺 序 将 其 从 存储 器 中 快速 读 取出 来 ， 即 便 
是 地 址 不 对 齐 的 32 位 指令 ， 也 最 好 能 够 连续 不 断 地 每 个 周期 读 出 一 条 完整 指令 。 
e 对 于 分 支 跳 转 指令 ， 能 够 快速 地 判定 其 是 否 需 要 跳 转 。 如 果 需 要 跳 转 ， 则 从 新 的 PC 
地 址 处 快速 取出 指令 ， 即便 是 地 址 不 对 齐 的 32 位 指令 ， 也 最 好 能 够 一 个 周期 读 出 一 
条 完整 指令 。 
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7-1 汇编 指令 流 示例 


下 文 将 分 别 予 以 论述 。 
7.1.2 ”如何 快速 取 指 


为 了 能 够 以 更 “ 快 ” 的 速度 从 存储 妖 中 取出 指令 ， 首 先 需 要 保证 存储 器 的 谈 延 迟 越 小 越 
好 。 不 同 的 存储 器 类 型 有 不 同 的 延 运 ， 片 外 的 DDR 存储 露 或 者 Flash iar n] AE m JLT 
个 周期 的 延 人 运 ， 瞩 上 的 SRAM 也 可 能 要 几 个 周期 的 延 返 。 为 了 能 够 使 得 处 理 右 核 以 最 快 的 
速度 取 指 ， 通 常 使 用 ITCM 和 I-Cache 的 方法 。 

(1) ITCM (Instruction Tightly Coupled Memory) 

e BORRARTE ERKMAA BB (JLF KB) WFA OE fi Hi 
SRAM)， 用 于 存储 指令 ， 且 在 物理 上 离 处 理 器 核 很 近 而 专属 于 处 理 右 核 ， 因 此 能 够 
取得 很 小 的 访问 延迟 (通常 一 个 时 钟 周期 )。 

e ITCM 的 优点 是 实现 非常 简单 ， 容 易 理 解 ， 且 能 保证 实时 性 。 

e ITCM 的 缺点 是 由 于 使 用 地 址 区 间 寻 址 ， 因 此 无 法 像 缓存 (Cache) 那样 映射 无 限 大 
的 存储 器 空间 ; 同时 为 了 保证 足够 小 的 访问 延迟 ， 无 法 将 容量 做 到 很 大 《和 否则 无 法 
一 个 时 钟 周 期 访问 出 来 SRAM 或 攻 片 无 法 容纳 过 大 的 SRAM)， 因 此 ITCM 只 能 用 
于 存放 容量 大 小 有 限 的 关键 程序 指令 。 

(2) I-Cache (Instruction Cache) 

。 指令 缓存 ， 是 指 利用 软件 程序 的 时 间 局 部 性 和 空间 局 部 性 ， 将 容量 巨大 的 外 部 指令 
存储 器 空间 动态 映射 到 容量 有 限 的 指令 缓存 中 ， 可 以 将 访问 指令 存储 器 的 平均 延迟 
降低 到 最 小 。 

e 由 于 绥 存 的 容量 是 有 限 的 ， 因 此 访问 缓存 存在 着 相当 大 的 不 确定 性 。 一 旦 缓存 不 命 
中 (Cache Miss)， 则 需要 从 外 部 的 存储 器 中 存 取 数 据 ， 造 成 较 长 的 延迟 。 在 实时 性 
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要 求 高 的 场景 中 ， 处 理 器 的 反应 速度 必须 有 最 可 靠 的 实时 性 。 如 果 使 用 了 缓存 ， 则 
无 法 保证 这 一 点 。 关 于 缓存 实时 性 的 论述 请 参见 第 11.1.1 节 。 

e 大 多 数 极 低 功 耗 处 理 器 应 用 的 场景 都 应 用 于 实时 性 较 高 的 场景 ， 因 此 更 加 倾 癌 于 使 
用 延迟 确定 的 ITCM。 

。 此 外 ， 缓 存 几 乎 可 以 认为 是 处 理 器 微 架 构 中 最 复杂 的 部 分 ， 请 参见 第 11.1.1 节 了 解 
更 多 信息 。 有 关 缓 存 的 相关 知识 以 及 设计 技巧 的 介绍 几乎 可 以 单独 成 书 ， 本 文 限 于 
篇 幅 在 此 不 做 凌 述 ， 感 兴趣 的 读者 可 以 参见 维基 百科 上 关于 缓存 的 词 条 网 页 (请 在 
维基 百科 中 搜索 "CPU cache"). 


7.1.3 ”如 何 处 理 非 对 齐 指令 


如 第 7.1.1 节 中 所 述 , “连续 不 断 ” 是 处 理 器 取 指 的 男 一 个 目标 。 如 果 每 一 个 时 钟 周期 都 能 够 
取出 一 条 指令 ， 就 可 以 源源 不 断 地 为 处 理 器 后 续 执 行 提供 指令 流 ， 而 不 会 出 现 空闲 的 时 钟 周期 。 

但 是 ， 不 管 是 从 ICache， 还 是 从 ITCM 中 取 指 令 ， 当 处 理 器 取 指 遇 到 了 一 条 地 址 非 对 
齐 的 指令 ， 则 会 为 “连续 不 断 ” 取 指 造成 困难 ， 因 为 ITCM 和 I-Cache 的 存储 单元 往往 使 用 
SRAM, 而 SRAM 的 读 端 口 往往 具有 固定 宽度 。 以 宽度 为 32 位 的 SRAM 为 例 ， 其 一 个 时 钟 
周期 只 能 读 出 一 个 〈 地 址 与 32 位 对 齐 ) 32 位 的 数据 。 假 设 一 条 32 位 长 的 指令 处 于 地 址 不 
对 齐 的 位 置 ， 则 意味 着 需要 分 两 个 时 钟 周 期 读 出 两 个 32 位 的 数据 ， 然 后 各 取 其 一 部 分 进行 
拼接 成 为 真正 需要 的 32 位 指令 , 这 样 就 需要 花费 至 少 2 个 时 钟 周期 才能 够 取出 一 条 指令 来 。 

如 何 才 能 使 得 处 理 器 对 于 非 对 齐 的 指令 都 能 一 个 周期 将 其 取出 ? 对 于 普通 指令 和 分 支 
跳 转 指令 需要 分 别论 述 。 

1. 普通 指令 非 对 齐 

对 于 普通 指令 的 按 顺 序 取 指 (地址 连续 增长 ) 情形 , 可 以 使 用 剩余 缓存 (Leftover Buffer? 
保存 上 次 取 指 令 后 没有 用 完 的 比特 位 ， 供 下 次 使 用 。 假 设 从 ITCM 中 取出 一 个 32 位 的 指令 
字 ， 但 是 只 用 到 了 它 的 低 16 位 ， 这 种 情形 可 能 是 由 于 两 种 原因 造成 的 。 

。 只 需要 使 用 此 次 取出 的 32 位 中 的 低 16 位 和 上 一 次 取出 的 高 16 位 组 成 了 一 条 32 位 指令 。 

。 这 个 指令 长 度 本 身 就 是 16 位 宽 ， 因 此 只 需要 取出 的 低 16 位 。 

那么 对 于 此 次 没有 使 用 到 的 高 16 位 ， 则 可 以 和 暂 存 于 剩余 缓存 中 ， 待 下 个 周期 取出 下 一 
个 32 位 的 指令 字 之 后 ， 就 可 以 马上 拼接 出 新 的 完整 32 位 指令 字 。 

2. 分 支 跳 转 指令 非 对 齐 

对 于 分 支 跳 转 指令 而 言 ， 如 果 跳 转 的 目标 地 址 与 32 位 地 址 边界 不 对 齐 ， 且 需要 取出 一 
个 32 位 的 指令 字 ， 上 述 剩余 缓存 也 无 济 于 事 了 【〔 因 为 剩余 缓存 只 有 在 按 顺 序 取 指 时 ， 才 能 
提前 预存 上 次 没有 用 完 的 指令 字 )。 对 此 ， 和 常见 的 实现 方式 是 使 用 多 体 (Bank) 化 的 SRAM 
进行 指令 存储 。 以 常见 的 奇偶 交错 方式 为 例 ， 使 用 两 块 32 位 宽 的 SRAM 交错 地 进行 存储 ， 
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两 个 连续 的 32 位 指令 字 将 会 被 分 别 存 储 在 两 块 不 同 的 SRAM 中 。 这 样 对 于 地 址 不 与 32 位 
对 齐 的 指令 ， 则 一 个 周期 可 以 同时 访问 两 块 SRAM 取出 两 个 连续 的 32 位 指令 字 ， 然 后 各 取 
其 一 部 分 进行 拼接 成 为 真正 需要 的 32 位 指令 。 


7.1.4 如 何 处 理 分 支 指令 


1. 分 支 指 令 类 型 
在 论述 如 何 处 理 分 支 指令 之 前 ， 有 必要 对 RISC 架构 处 理 器 的 分 支 指 令 类 型 进行 介绍 ， 
常见 的 分 支 指令 类 型 如 下 。 
(1) 无 条 件 跳 转 /分 支 (“Unconditional Jump/Branch) 指令 ， 是 指 〈 无 需 判 断 条 件 ) 一 定 
会 发 生 跳 转 的 指令 ， 而 按照 跳 转 的 目标 地 址 计算 方式 ， 还 分 为 以 下 两 种 情况 。 
。 无 条 件 直 接 跳 转 /分 支 CUnconditional Direct Jump/Branch) 指令 ， 此 处 的 “直接 ”是 
指 跳 转 的 目标 地 址 从 指令 编码 中 的 立即 数 可 以 直接 计算 而 得 。 
以 RISC-V 架构 中 的 jal (jump and link) 指令 为 例 ， 便 属于 无 条 件 直 接 跳 转 指令 。jal 
指令 的 汇编 示例 如 “jal x5, offset", jal 使 用 编码 在 指令 字 中 的 20 位 立即 数 (有 符号 
数 ) 作为 偏 移 量 (offset)。 该 偏 移 量 乘 以 2， 然 后 与 当前 指令 所 在 的 地 址 相 加 ， 生 成 
得 到 最 终 的 跳 转 目标 地 址 。 
。 无 条 件 间 接 跳 转 /分 支 《Unconditional Indirect Jump/ Branch) 指令 ， 此 处 的 “间接 ” 
是 指 跳 转 的 目标 地 址 需要 从 寄存 器 索引 的 操作 数 中 计算 出 来 。 
以 RISC-V 架构 中 的 jalr (jump and link-register) 指令 为 例 ， 便 属于 无 条 件 间 接 跳 转 
指令 。jalr 指令 的 汇编 示例 如 “jalr x1, x6, offset", jalr 与 jal 的 不 同 之 处 在 于 jalr 使 
用 编码 在 指令 字 中 的 12 位 立即 数 (有 符号 数 ) 作为 偶 移 量 〈offset)， 与 jalr 的 另外 
一 个 寄存 器 索引 的 操作 数 〈 基 地 址 寄存 器 ) 相 加 得 到 最 终 的 跳 转 目标 地 址 。 
(2) 带 条 件 跳 转 /分 支 CConditional Jump/ Branch)， 是 指 需要 判断 条 件 而 决定 是 否 发 生 
跳 转 的 指令 ， 同 样 按照 跳 转 的 目标 地 址 计算 方式 ， 还 分 为 以 下 两 种 情况 。 
。 带 条 件 直接 跳 转 /分 支 (Conditional Direct Jump/Branch) 指令 ， 此 处 的 “直接 ”是 指 
跳 转 的 目标 地 址 从 指令 编码 中 的 立即 数 可 以 直接 计算 而 得 。 
以 RISC-V 架构 为 例 ， 其 有 6 条 带 条 件 分 支 指令 (Conditional Branch), XPP i AN 
的 分 支 指令 跟 普通 的 运算 指令 一 样 直接 使 用 两 个 整数 操作 数 ， 然 后 对 其 进行 比较 。 
如 果 比 较 的 条 件 满足 ， 则 进行 跳 转 。 
。 带 条 件 间 接 跳 转 /分 支 (Conditional Indirect Jump/ Branch) 指令 ， 此 处 的 “间接 ”是 
指 跳 转 的 目标 地 址 需要 从 寄存 器 索引 的 操作 数 中 计算 出 来 。 
与 上 述 无 条 件 间接 跳 转 / 分 支 指令 的 示例 同 理 , 但 是 RISC-V 架构 中 没有 此 类 型 指令 。 
对 于 和 带 条 件 跳 转 / 分 支 指 令 而 言 ， 流 水 线 在 取 指 令 阶 段 无 法 得 知 该 指令 的 条 件 是 否 成 立 ， 
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因此 无 法 决定 是 跳 还 是 不 跳 ,理论 上 指令 只 有 在 执行 阶段 完成 之 后 ,才能 够 解析 出 最 终 的 跳 
转 结 果 。 假 设 处 理 器 将 取 指 暂停 ， 一 直 等 到 执行 阶段 完成 才 继续 取 指 ， 则 会 造成 大 量 的 流水 
线 空 泡 周期 ， 从 而 影响 性 能 。 

为 了 提高 性 能 ， 现 代 处 理 器 的 取 指 单元 一 般 会 采用 分 支 预 测 (Branch Prediction? 技术 。 
通俗 来 讲 ， 分 支 预 测 需 要 解决 两 个 方面 的 问题 。 

e 预测 分 支 指令 是 否 真 的 需要 跳 转 ? 简称 为 预测 “方向 ”。 

e 如 果 跳 转 ， 跳 转 的 目标 地 址 是 什么 ? 简称 为 预测 “地 址 ”。 

取 指 时 使 用 预测 出 的 “方向 ?和 ?地址 ?进行 取 指 令 的 行为 称 为 一 种 预测 取 指 (CSpeculative 
Fetch) 的 行为 ， 对 预 取 的 指令 进行 执行 也 便 称 为 一 种 预测 执行 〈《Speculative Execution) 的 
行为 。 处 理 器 的 微 架 构 经 过 几 十 年 的 发 展 ， 已 经 形成 了 非常 成 熟 的 分 支 预测 硬件 实现 方法 ， 
下 面 予 以 简介 。 

2. 预测 方向 

对 于 “ 方 同 ”的 预测 ， 可 以 分 为 静态 预测 和 动态 预测 两 种 。 

CD 静态 预测 是 最 简单 的 “ 方 同 ” 预 测 方法 ， 其 不 依赖 于 任何 曾经 执行 过 的 指令 信息 和 
历史 信息 ， 而 是 仅 依 靠 这 条 分 文 指 令 本 身 的 信息 进行 预测 。 

e 最 简单 的 静态 预测 方法 是 总 预测 分 支 指令 不 会 发 生 跳 转 ， 因 此 取 指 单元 便 总 是 顺序 

取 分 支 指令 的 下 一 条 指令 。 待 执行 阶段 之 后 如 果 发 现 需 要 跳 转 ， 则 会 神 刷 流水 线 
(Flush Pipeline〉 重 新 进行 取 指 。 有 关 冲 刷 流水 线 的 介绍 ， 请 参见 第 9.1.1 节 。 早 期 
的 处 理 器 流水 线 (以 MIPS 的 5 级 流水 线 为 例 ) 往往 在 第 一 级 取 指 ， 然 后 在 第 二 级 
译 码 并 对 分 文 真正 结果 进行 判断 ， 因 此 冲刷 流水 线 后 重新 取 指 令 需 要 两 个 周期 。 
为 了 弥补 冲刷 流水 线 造成 的 性 能 损失 ， 很 多 早期 的 RISC 架构 均 使 用 了 “分 支 延迟 
# (Delay Slot)”。 最 具有 代表 性 的 是 MIPS 架构 ， 在 很 多 经 典 的 计算 机 体系 结构 教 
材 中 均 使 用 MIPS 对 分 支 延 迟 槽 进行 过 介绍 。 分 支 延 迟 槽 是 指 在 每 一 条 分 支 指令 后 
面 紧 跟 的 一 条 或 者 若干 条 指令 不 受 分 文 跳 转 的 影响 ， 不 管 分 文 是 否 跳 转 ， 后 面 的 几 
条 指令 都 一 定 会 被 执行 。 分 支 指令 后 面 的 几 条 指令 所 在 的 位 置 便 称 为 分 文 延迟 横 。 
由 于 分 文 延 迟 权 中 的 指令 永远 被 执行 而 不 用 被 丢弃 重 取 ， 因 此 其 不 会 受到 冲刷 流水 
线 的 影响 。 

e 男 一 种 常见 的 静态 预测 方法 是 BTFN 预测 (Back Taken; Forward Not Taken), ENX} 
于 向 后 的 跳 转 预 测 为 跳 ， 向 前 的 跳 转 则 预测 为 不 跳 。 向 后 的 跳 转 是 指 跳 转 的 目标 地 
hk CPC 值 ) 比 当前 分 支 指令 的 PC 值 要 小 。 这 种 BTFN 方法 的 依据 是 在 实际 的 汇编 
程序 中 癌 后 分 支 跳 转 的 情形 要 多 于 向 前 跳 转 的 情形 , 壁 如 常见 的 for 循环 生成 的 汇编 
指令 往往 使 用 向 后 跳 转 的 分 支 指 令 。 

(2) 动态 预测 是 指 依赖 已 经 执行 过 的 指令 的 历史 信息 和 分 支 指令 本 身 的 信息 综合 进行 
“AE” A. 
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。 最 简单 的 分 文 “ 方 向 ”动态 预测 器 为 “一 比特 饱和 计数 器 (1-bit Saturating Counter)”, 
每 次 分 支 指令 执行 之 后 ， 便 使 用 此 计数 器 记录 上 次 的 “ 方 癌 ”。 其 预测 机 制 是 : 下 一 
次 分 支 指令 永远 采用 上 次 记录 的 “方向 ”作为 本 次 的 预测 。 这 种 预测 器 结构 最 简单 ， 
但 是 预测 精度 不 如 “两 比特 饱和 计数 器 (2-bit Saturating Counter) ". 

。 “两 比特 饱和 计数 器 (2-bit saturating counter)” 是 最 第 见 的 分 文 “ 方 向” 动态 预测 
器 ， 每 次 分 支 指令 执行 之 后 ， 其 对 应 的 状态 机 转换 如 图 7-2 所 示 ， 其 预测 机 制 如 下 。 


strongly weakly weakly strongly 
not taken not taken taken taken 


not taken 


taken 
not taken 





not taken not taken 


图 7-2 两 比特 饱和 计数 器 的 预测 状态 机 


当 目 前 状态 为 “ 强 不 需要 跳 转 (strongly not taken)” 或 者 “ 弱 不 需要 跳 转 (weakly not 
taken)” 时 ， 预 测 该 指令 的 方 回 为 “不 需要 跳 转 (not taken)”; 当 目 前 状态 为 “ 弱 需 要 
跳 转 Cweakly taken)” 或 者 “ 强 需 要 跳 转 Cstrongly taken)” 时 ,预测 该 指令 的 方向 为 “ 需 
要 跳 转 (taken)”。 

每 次 预测 出 错 之 后 便 会 向 着 相反 的 方向 更 改 状 态 机 状态 ， 璧 如 当前 状态 为 “ 强 需 要 
跳 转 ” 会 预测 为 需要 跳 转 ， 但 是 实际 结果 是 不 需要 跳 转 ， 则 需要 将 状态 机 的 状态 更 
新 为 弱 不 需要 跳 转 。 

由 于 总 共有 4 个 状态 ， 壁 如 从 强 需 要 跳 转 状态 需要 连续 两 次 预测 错误 后 ， 才 能 变 到 
弱 不 需要 跳 转 ， 因 此 具有 一 定 的 切换 缓冲 ， 其 在 复杂 的 程序 流 中 预测 精度 比 简单 的 
“一 比特 饱和 计数 器 ”具有 更 高 的 精度 。 

e “两 比特 饱和 计数 器 ”对 于 预测 一 条 分 文 指 令 很 有 效 , 但 是 处 理 嚣 执行 的 指令 流 中 存在 
着 众多 的 不 同 分 支 指令 〈 位 于 不 同 的 PC 值 位 置 )。 假 设 只 使 用 一 个 “两 比特 饱和 计数 
器 ”在 任何 分 支 指令 执行 时 均 进 行 更 新 , 那么 必然 会 互相 冲击 , 预测 的 结果 会 很 不 理想 。 
最 理想 的 情况 是 为 每 一 条 分 支 指令 都 分 配 专 有 的 “两 比特 饱和 计数 器 ”为 其 进行 预测 ， 
但 是 指令 数目 众多 (32 位 架构 理论 上 有 4G 的 地 址 空间 )， 不 可 能 提供 巨 量 的 两 比特 饱 
和 计数 器 (硬件 资源 开销 无 法 接受 )。 所 以 只 能 够 使 用 有 限 个 “两 比特 饱和 计数 器 ”组 
织 成 一 个 表格 , 然后 对 于 每 条 分 支 指令 使 用 某 种 形式 寻 址 方式 索引 表格 中 的 茶 个 表 项 的 
“两 比特 饱和 计数 器 ”。 由 于 表格 中 的 表 项 数目 有 限 而 指令 数目 众多 ， 因 此 很 多 不 同 的 分 
支 指令 都 会 不 可 避免 地 指 回 同样 的 表 项 ， 这 种 问题 称 为 别名 重合 Aliasing). 

目前 一 般 使 用 各 种 不 同 的 动态 分 文 预测 算法 , 通俗 地 讲 就 是 通过 采用 不 同 的 表格 组 织 方 

式 〈 控 制 表格 的 大 小 ) 和 索引 方式 《控制 别 名 重合 问题 )， 来 提供 更 高 的 预测 精准 率 。 第 见 
的 算法 简 述 如 下 。 


7.1 取 指 概述 | 95 


一 级 预测 器 

。 最 简单 的 方式 是 直接 将 有 限 个 “两 比特 饱和 计数 器 ”组 织 成 一 维 的 表格 ， 称 为 预测 
器 表格 (Predictor Table)， 并 直接 使 用 PC 值 的 一 部 分 进行 索引 。 辟 如 使 用 PC 的 后 
10 位 作为 索引 ， 则 仅 需 要 维护 1000 个 表 项 的 表格 。 

。 这 种 方法 称 为 一 级 预测 器 ， 所 谓 “ 一 级 ”是 指 其 索引 仅仅 采用 指令 本 身 的 PC 值 。 

。 该 方法 虽然 简单 易 行 ， 但 是 索引 机 制 过 于 简单 ， 很 多 不 同 的 分 支 指令 都 会 指向 同样 
的 表 项 〈 臂 如 低 10 位 相同 但 是 高 位 不 相同 的 PC)。 并 且 由 于 没有 考虑 到 分 支 指令 的 
上 下 文 执行 历史 ， 分 支 预测 的 精度 不 如 两 级 预测 器 。 

两 级 预测 器 

e。 两 级 预测 器 也 称 为 相关 预测 器 CCorrelation-Based Branch Predictor)。 对 于 每 条 分 支 
指令 而 言 ， 将 有 限 个 “两 比特 饱和 计数 器 ”组 织 成 PHT (Pattern History Table)。 使 
用 该 分 支 跳 转 的 历史 (Branch History) 作为 PHT 的 索引 。 如 图 7-3 所 示 ， 假 设 用 n 
个 比特 记录 其 历史 (1 表示 taken，0 表示 not 
taken), WEARI 2 If] n 次 方 个 表 项 。 

e 分 文 历 史 (Branch History) 又 可 以 分 为 局 部 Branch rid i La 
历史 CLocal History) 和 全 局 历史 C Global 0110 

lil 

bits 


Pattern history table 


Prediction 








History)。 局 部 历史 是 指 每 个 分 支 指令 目 己 的 
分 支 跳 转 历史 , 而 全 局 历史 是 指 所 有 分 支 指令 
的 分 支 跳 转 历 史 。 

e 局 部 分 支 预测 器 (Local Branch Predictor) 会 
使 用 分 立 的 局 部 历史 缓存 (Local History 图 7-3 EHI CU) 8238 9| PHT 
Buffer) 来 保存 不 同 指令 的 分 支 历史 ， 每 个 局 部 历史 缓存 有 自己 对 应 的 PHT。 对 于 
每 条 分 支 指令 而 言 ， 先 索引 到 其 对 应 的 局 部 历史 缓存 ， 然 后 使 用 局 部 历史 缓存 中 的 
历史 值 索引 其 对 应 的 PHT. 

e 全 局 分 支 预测 器 (Global Branch Predictor) 则 仅 使 用 所 有 分 支 指令 共享 的 全 局 历史 
缓存 (Shared Global History Buffer)。 全 局 分 支 预测 器 的 一 个 很 明显 的 弊端 是 它 无 法 
区 分 单独 每 个 分 支 指令 的 历史 ， 不 同 的 指令 会 互相 神 击 ， 但 是 它 的 优势 是 比较 节省 
资源 。 因 此 全 局 分 支 预 测 器 只 有 在 将 PHT 容量 做 到 非常 大 时 ， 才 能 体现 出 其 优势 ， 
PHT 容量 越 大 ， 其 优势 越 明 显 。 

最 有 代表 性 的 全 局 分 支 预测 算法 是 Gshare 和 Gselect。 

GShare 是 Scott Mcfarling F 1993 年 提出 的 一 种 动态 分 文 预 测 机 制 , 在 很 多 现代 的 处 
理 器 中 都 有 采用 。Gshare 算法 将 分 文 指 令 PC 值 的 一 部 分 和 共享 的 全 局 历史 缓存 进 
行 “ 异 或 ”运算 ， 然 后 使 用 运算 的 结果 作为 PHT 的 索引 。 

Gselect 算法 将 分 支 指令 PC 值 的 一 部 分 和 共享 的 全 局 历史 缓存 直接 进行 “拼接 ” 运 
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算 ， 然 后 使 用 运算 的 结果 作为 PHT 的 索引 。 
3. 预测 地 址 
对 于 第 7.1.4 节 中 介绍 的 直接 跳 转 / 分 支 (Direct Jump/Branch) 指令 ， 分 支 目标 地 址 需要 使 
用 当前 的 PC 值 和 对 应 取 回 的 指令 字 中 的 立即 数 进行 加 法 运算 ; 而 对 于 间接 跳 转 /分 支 CIndirect 
Jump/Branch) 指令 ， 由 于 分 支 目 标 地 址 需要 使 用 寄存 器 索引 的 操作 数 〈 基 地 址 寄存 器 ) 和 指 
令 字 中 的 立即 数 进 行 加 法 运算 ， 只 能 在 流水 线 的 执行 阶段 才 计算 出 分 支 目 标 地 址 。 在 现代 高 
速 的 处 理 器 中 ， 这 些 都 是 不 可 能 在 一 个 周期 内 完成 的 ， 在 高 速 的 处 理 器 中 连续 取 下 一 条 指令 
之 前 ， 甚 至 连 译 码 判断 当前 取 到 的 指令 是 否 属于 分 支 指令 都 无 法 及 时 在 一 个 周期 内 完成 。 
因此 为 了 能 够 连续 不 断 地 取 指 ， 需 要 预测 分 支 的 目标 “地 址 ?”， 和 常见 的 技术 简 述 如 下 。 
(1) BTB 
e 分 支 目 标 缓存 (Branch Target Buffer; BTB) 技术 是 指使 用 容量 有 限 的 缓存 保存 最 近 
执行 过 的 分 支 指令 的 PC 值 ， 以 及 它们 的 跳 转 目 标 地 址 。 对 于 后 续 需 要 取 指 的 每 条 
PC 值 , 将 其 与 BTB 中 存储 的 各 个 PC 值 进行 比较 ， 如 果 出 现 匹 配 ， 则 预测 这 是 一 条 
分 文 指令 ， 并 使 用 其 对 应 存储 的 跳 转 目标 地 址 作为 预测 的 跳 转 地 址 。 
e BTB 是 一 种 最 简单 快捷 的 预测 “地 址 ”方法 , 但 是 其 缺点 之 一 是 不 能 将 BTB 容量 做 
到 太 大 ， 否 则 面积 和 时 序 都 无 法 接受 。 
e BTB 的 另 一 个 缺点 是 对 于 间接 跳 转 /分 支 CIndirect Jump/Branch) 指令 的 预测 效果 并 
不 理想 。 这 主要 是 由 于 间接 跳 转 /分 支 的 目标 地 址 是 使 用 寄存 器 索引 的 操作 数 〈 基 地 
址 寄存 器 ) 计算 所 得 ， 而 寄存 器 中 的 值 随 着 程序 执行 可 能 每 次 都 不 一 样 ， 因 此 BTB 
中 存储 的 上 次 跳 转 的 目标 地 址 并 不 一 定 等 于 本 次 跳 转 的 目标 值 。 
(2) RAS 
e 返回 地 址 堆栈 (Return Address Stack; RAS) 技术 是 指使 用 容量 有 限 的 硬件 堆栈 (一 
种 “先进 后 出 ”的 结构 ) 来 存储 函数 调用 的 返回 地 址 。 
e 在 7.1.4 节 中 介绍 过 ， 以 RISC-V 架构 为 例 ， 间 接 跳 转 /分 文 CIndirect Jump/Branch) 可 
以 用 于 函数 的 调用 和 返回 。 而 函数 的 调用 和 返回 在 程序 中 往往 是 成 对 出 现 的 ， 因 此 可 
以 在 函数 调用 《使 用 分 支 跳 转 指令 ) 时 将 当前 PC 值 加 4 (或 者 2)。 即 其 顺序 执行 的 
下 一 条 指令 的 PC 值 压 入 RAS 堆栈 中 , 等 到 函数 返回 (使 用 分 支 跳 转 指 令 ) 时 将 RAS 
中 的 值 弹出 ， 这 样 就 可 以 快速 地 为 该 函数 返回 的 分 支 跳 转 指令 预测 目标 地 址 。 
e 只 要 程序 是 在 正常 执行 ， 其 函数 的 调用 和 返回 成 对 出 现 ， 那 么 RAS 便 能 够 提供 较 高 
的 预测 准确 率 。 当 然 由 于 RAS 的 深度 有 限 ， 如 果 程 序 中 出 现 很 多 次 函数 髓 套 ， 需 要 
不 断 地 压 入 堆栈 , 造成 堆栈 游 出 ， 则 会 影响 到 预测 准确 率 , 硬件 需要 特殊 处 理 该 情形 。 
(3) Indirect BTB 
e 间接 BTB (Indirect BTB) 是 指 专门 为 间接 跳 转 / 分 支 (Indirect Jump/Branch) 指令 而 
设计 的 BTB, 它 与 普通 BTB 类 似 ,存储 较 多 历史 目标 地 址 , 但 是 通过 高 级 的 索引 方 
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法 进行 匹配 (而 不 是 简单 的 PC 值 比较 ), 可 以 说 结合 了 BTB 和 动态 两 级 预测 器 的 技 
术 ， 能 够 提供 较 高 跳 转 目标 地 址 预测 成 功率 。 但 其 缺点 是 硬件 开销 非常 大 ， 只 有 在 
高 级 的 处 理 器 中 才 会 使 用 。 
。 还 有 其 他 的 技术 能 够 提高 间接 跳 转 /分 支 (Indirect Jump/Branch) 指令 的 跳 转 目标 地 
址 预测 成 功率 ， 本 文 在 此 不 做 殉 述 。 
4. 其 他 拓展 
本 书 在 此 仅 对 分 文 预 测 常 见 的 技术 进行 了 简介 。 分 支 预 测 是 处 理 器 微 架 构 中 非常 重要 且 
比较 复杂 的 内 容 ， 铬 要 彻底 阐述 明晰 需要 数 十 页 的 篇 幅 。 很 多 处 理 器 体系 结构 的 教材 中 都 有 
专门 的 章节 详 述 ， 本 书 在 此 不 做 赣 述 。 推 荐 读者 阅读 维基 百科 关于 分 支 预测 的 词 条 网 页 〈 请 
在 维基 百科 中 搜索 “Branch predictor"). 


1.2 





RISC-V 末 构 特点 对 于 取 指 的 简化 





上 一 节 讨 论 了 处 理 器 取 指 的 相关 背景 和 技术 , 可 以 说 取 指 是 处 理 旧 微 架构 中 一 个 比较 关 
键 且 复杂 的 部 分 。 在 第 2 章 中 ， 我 们 曾 总 结 性 地 探讨 过 RISC-V 以 构 追 求 简化 硬件 的 哲学 。 
具体 对 于 取 指 而 言 ，RISC-V 架构 的 如 下 特点 可 以 大 幅 简化 其 硬件 实现 。 
。 规整 的 指令 编码 格式 。 
指令 长 度 指示 码 放 于 低位 。 
简单 的 分 支 跳 转 指 令 。 
HA 2] SCUDRTETR o 
提供 明确 的 静态 分 文 预测 依据 。 
提供 明确 的 RAS 依据 。 
下 文 予以 分 别论 述 。 


7.2.1 规整 的 指令 编码 格式 


取 指 时 如 果 能 够 尽快 译 码 出 当前 取出 的 指令 类 型 〈( 壁 如 是 否 属于 分 支 跳 转 指令 )， 将 有 
利于 取 指 逻辑 的 效率 和 实现 。 在 第 2 章 中 曾经 论述 过 RISC-V 架构 得 益 于 后 发 优势 ， 并 总 结 
了 多 年 来 处 理 器 发 展 的 教训 ， 其 指令 集 编码 非常 规整 ,可 以 非常 便捷 地 译 码 出 指令 的 类 型 及 
其 使 用 的 操作 数 寄存 器 索引 (Onde 或 者 立即 数 ， 从 而 简化 硬件 设计 。 


7.2.2 ”指令 长 度 指示 码 放 于 低位 
为 了 提高 代码 密度 ，RISC-V 定义 了 一 种 可 选 的 压缩 (Compressed). 指令 子 集 ， 由 字母 
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C 表示 。 如 果 支 持 此 压缩 子 集 ， 就 会 有 32 位 和 16 位 指令 混合 交织 在 一 起 的 情形 。 

为 了 支持 16 位 指令 的 取 指 ， 取 指 逻 辑 每 取 一 条 指令 之 后 需要 以 最 快 的 速度 译 码 判 断 出 
当前 指令 的 宽度 是 16 位 或 者 32 位 。 得 益 于 后 发 优势 和 多 年 来 处 理 器 发 展 的 教训 ，RISC-V 
架构 的 制定 者 预先 考虑 了 这 个 问题 。 如 图 7-4 所 示 ， 所 有 的 RISC-V 指令 编码 的 最 低 几 位 专 
门 用 于 编码 表示 指令 的 长 度 。 将 指令 长 度 指示 码 放 在 指令 的 最 低位 ， 可 以 方便 取 指 逻辑 在 顺 
序 取 指 的 过 程 中 以 最 快 的 速度 译 码 出 指令 的 长 度 ， 极 大 地 简化 硬件 设计 。 壁 如， 取 指 逻辑 在 
仅 取 到 16 位 指令 字 时 就 可 以 进行 译 码 判断 ， 当 前 指令 是 16 位 长 还 是 32 位 长 ， 而 无 需 等 待 
另外 一 半 的 16 位 指令 字 取 到 之 后 ， 才 开始 译 码 。 


16-bit (aa # 11) 
32-bit (bbb 111) 
aa | OOO | xaaaonccT ETE | 48bit 
Sicbi 
(80-16*n22).bit, nnn#111 
Reserved for > 102-hits 
Byte Address: base+4 base 十 2 base 


图 7-4 RISC-V 指令 长 度 的 编码 信息 


另外 ， 由 于 16 位 的 压缩 指令 子 集 是 可 选 的 ， 假 设 处 理 器 不 支持 此 压缩 指令 子 集 而 仅 文 
持 32 位 指令 ， 甚 至 可 以 将 指令 字 的 低 2 位 忽略 不 存储 《因为 其 肯定 固定 为 11)， 从 而 节省 
6.25% 的 指令 缓存 (I-Cache) 的 开销 。 

注意 : 从 图 7-4 中 可 以 看 出 ，RISC-V 架构 甚至 可 以 文 持 48 位 和 64 位 等 不 同 的 指令 长 
度 ， 但 是 这 些 均 属于 非 必需 的 罕见 指令 ， 本 书 在 此 对 其 不 做 介绍 。 


7.2.3 ”简单 的 分 支 跳 转 指令 


RISC-V 的 基本 整数 指令 子 集 中 的 分 支 跳 转 指令 总 结 如 表 7-1 所 示 。 


表 7-1 RV321 架构 中 的 分 支 跳 转 指令 
分 组 指 $ Ho R 
。 jal Gump and link) 指令 的 汇编 示例 如 “jal x5, offset” 
。 jal 指令 一 定 会 发 生 跳 转 ， 其 使 用 编码 在 指令 字 中 的 20 位 立即 数 (有 符号 数 ) 作为 
jal 偏 移 量 〈offset)。 该 偏 移 量 乘 以 2， 然后 与 当前 指令 所 在 的 地 址 相 加 ， 生 成 得 到 最 终 的 
跳 转 目标 地 址 
。 jal 指令 将 下 一 条 指令 的 PC (当前 指令 PC+4) 的 值 写 入 其 结果 寄存 器 


无 条 件 直 接 跳 转 /分 支 
指令 
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续 表 
分 “组 描述 
e jalr (jump and link-register) 指令 的 汇编 示例 如 “jalr x1, x6, offset" 
。 jalr 指令 一 定 会 发 生 跳 转 ， 其 使 用 编码 在 指令 字 中 的 12 位 立即 数 〈《 有 符号 数 〉 作 为 


— Ain en jar — | 偏 移 量 (offset)， 与 jalr 的 另外 一 个 寄存 器 索引 的 操作 数 〈 基 地 址 寄存 器 ) 相 加 ， 得 到 
最 终 的 跳 转 目标 地 址 
。 jalr 指令 将 下 一 条 指令 的 PC (当前 指令 PCH) 的 值 写 入 其 结果 寄存 器 
beq | 两 个 整数 操作 数 相 等 则 晃 转 
bne | 两 个 整数 不 相等 则 是 转 
带 条 件 直接 跳 转 /分 支 | ”blt | 第 一 个 有 符号 数 小 于 第 二 个 有 符号 数 则 是 转 
指令 | biu | 第 一 个 无 符号 数 小 于 第 二 个 无 符号 数 则 跳 转 


| bg | 第 一 个 有 符号 数 大 于 等 于 第 二 个 有 符号 数 则 跳 转 
| bgeu | 第 一 个 无 符号 数 大 于 等 于 第 二 个 无 符号 数 则 跳 转 


如 表 7-1 所 示 ，RISC-V 架构 有 两 条 无 条 件 跳 转 指令 (Unconditional Jump) 一 一 jal 与 jalr 
指令 。jal 指令 可 以 用 于 进行 子 程序 调用 ， 同 时 将 子 程序 返回 地 址 存在 jal 指令 的 目标 结果 寄 
存 器 〈 链 接 寄存 器 ，Link Register) 中 。jalr 指令 可 以 用 于 子 程序 返回 指令 ， 通 过 将 jal 指令 
( 跳 转 进入 子 程序 ) 保存 的 链接 寄存 器 用 于 jalr 指令 的 基地 址 寄存 器 ， 则 可 以 从 子 程序 返回 。 
如 表 7-1 所 示 ，RISC-V 架构 有 6 条 带 条 件 分 文 指令 〈Conditional Branch)， 这 种 带 条 件 
的 分 支 指 令 跟 普通 的 运算 指令 一 样 ， 直 接 使 用 2 个 整数 操作 数 ， 然 后 对 其 进行 比较 。 如 果 比 
较 的 条 件 满足 时 则 进行 跳 转 ， 因 此 这 是 将 比较 与 跳 转 两 个 操作 放 到 了 一 个 指令 中 完成 。 这 种 
带 条 件 分 支 指令 使 用 12 位 的 有 符号 数 作为 偏 移 量 。 该 偏 移 量 乘 以 2 后 与 当前 指令 所 在 的 地 
址 相 加 ， 生 成 得 到 最 终 的 跳 转 目标 地 址 。 

对 于 类 似 带 条 件 分 支 功能 ， 很 多 的 其 他 RISC 架构 的 处 理 器 需要 使 用 两 条 独立 的 指令 。 
第 一 条 指令 先 使 用 比较 指令 (Compare)， 比 较 的 结果 被 保存 到 状态 寄存 器 中 。 第 二 条 指令 使 
用 跳 转 指令 ,判断 前 一 条 指令 保存 在 状态 寄存 器 当中 的 比较 结果 为 真 时 ， 则 进行 跳 转 。 相 比 
而 言 ，RISC-V 架构 将 比较 与 跳 转 两 个 操作 放 到 了 一 个 指令 的 方式 不 仅 减少 了 指令 的 条 数 ， 
而 且 在 硬件 设计 上 更 加 简单 。 

RISC-V 架构 中 16 位 压缩 指令 子 集 也 定义 了 大 干 分 支 跳 转 指 令 ， 总 结 如 表 7-2 所 示 。 但 
是 第 2.2.11 节 曾 经 提 到 ，RISC-V 染 构 的 一 个 精妙 之 处 在 于 其 16 位 的 指令 一 定 能 够 对 应 到 一 条 
32 位 的 等 效 指令 ， 分 支 跳 转 指 令 也 不 例外 ， 因 此 功能 与 基本 整数 指令 子 集中 的 分 支 跳 转 指 
令 一 致 ， 在 此 不 再 著述 。 


表 7-2 RV32C 架构 中 的 分 支 跳 转 指令 


分 a ARES RV32 指令 


无 条 件 直 接 跳 转 /分 支 
指令 Gi jal x0, offset[11:1] 


100 | 万 事 开头 难 吗 一 一切 从 取 指令 开始 


续 表 
分 组 等 效 的 RV321 指令 


无 条 件 直接 跳 转 /分 支 jal x1, offset[11:1] 
指令 注意 ; 由 于 C.JAL 的 指令 宽度 是 16 位 ， 因 此 下 一 条 指令 的 PC 值 为 当前 PC+2 


指 $ 
C.JAL 


无 条 件 间 接 跳 转 / 分 支 
jalr x1, rs1, 0 
指令 CJALR 
注意 : 由 于 C.JAL 的 指令 宽度 是 16 位 ， 因 此 下 一 条 指令 的 PC 值 为 当前 PC+2 


带 条 件 直 接 跳 转 /分 支 C.BEQZ beq rs1, x0, offset[8:1] 
指令 bne rs1, x0, offset[8:1] 


7.2.4 ”没有 分 支 延迟 模 指 令 


分 支 延 迟 槽 是 指 在 每 一 条 分 支 指令 后 面 紧 跟 的 一 条 或 者 若干 条 指令 不 受 分 支 跳 转 的 影 
响 ， 不 管 分 支 是 否 跳 转 ， 这 后 面 的 几 条 指令 都 一 定 会 被 执行 。 分 支 指令 后 面 的 几 条 指令 所 在 
的 位 置 便 称 为 分 文 延 迟 槽 。 由 于 分 支 延 迟 槽 中 的 指令 永远 被 执行 而 不 用 被 丢弃 重 取 ， 使 得 其 
不 会 受到 流水 线 冲 刷 (Pipeline Flush) 的 影响 ， 也 降低 了 对 分 支 预测 精度 的 要 求 。 很 多 早期 
的 RISC 架构 均 使 用 了 分 支 延 迟 槽 的 技术 ， 最 具有 代表 性 的 便 是 MIPS 架构 ， 在 很 多 经 典 的 
计算 机 体系 结构 教材 中 均 使 用 MIPS 对 分 支 延迟 槽 有 所 介绍 。 

分 支 延 迟 权 在 早期 的 RISC 架构 中 被 采用 ， 主 要 是 因为 早期 的 RISC 处 理 器 流水 线 比 较 
简单 ， 没 有 使 用 高 级 的 硬件 动态 分 支 预测 器 ， 使 用 分 支 延 迟 横 能够 取得 可 观 的 效果 。 然 而 这 
种 分 文 延 迟 模 使 得 处 理 器 的 硬件 设计 变 得 极为 别扭 , 尤其 是 对 于 取 指 部 分 的 硬件 设计 将 会 比 
较 烦 琐 。 

RISC-V 架构 放弃 了 分 支 延 迟 槽 ，RISC-V 架构 的 制定 者 认为 放弃 分 支 延 迟 槽 的 得 大 于 
失 。 因 为 现代 的 高 性 能 处 理 器 的 分 支 预测 算法 精度 已 经 非常 高 , 可 以 有 强大 的 分 支 预测 电路 ， 
保证 处 理 器 能 够 准确 地 预测 跳 转 执行 达到 高 性 能 。 而 对 于 低 功 耗 小 面积 的 处 理 器 可 以 选择 非 
常 简单 的 电路 进行 实现 , 由 于 无 须 支 持 分 支 延 迟 槽 所 带 来 的 硬件 极 大 简化 也 能 进一步 减少 功 
耗 和 提高 时 序 。 


7.2.5 提供 明确 的 静态 分 文 预测 依据 


静态 分 支 预测 是 一 种 最 简单 的 预测 技术 ， 但 是 静态 分 支 预测 往往 固定 地 预测 癌 后 跳 转 
(或 者 向 前 跳 转 ) 为 需要 跳 转 (Taken)。 如 果 软 件 实际 执行 中 未 必 如 此 ， 则 会 造成 预测 失败 。 

RISC-V 架构 中 明确 规定 ， 编 译 器 生成 的 代码 应 该 尽量 优化 ， 使 得 癌 后 跳 转 的 分 支 指令 
比 向 前 跳 转 的 分 支 指令 有 更 大 的 概率 进行 跳 转 。 如 此 ， 对 于 使 用 静态 预测 的 低 端 处 理 器 ， 可 
以 保证 其 行为 和 软件 行为 匹配 ， 最 大 化 地 提高 静态 预测 的 准确 率 。 
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7.2.6 ”提供 明确 的 RAS 依据 


RAS (Return Address Stack) 可 以 用 于 函数 返回 地 址 的 预测 ， 这 是 目前 处 理 器 设计 的 常 
用 技术 。 但 是 RAS 需要 能 够 明确 地 判定 什么 指令 属于 “函数 调用 ”类 型 的 分 支 跳 转 指令 从 
而 进行 压 栈 ， 什 么 指令 属于 “函数 返回 ”类 型 的 分 支 跳 转 | 
指令 从 而 进行 出 栈 。 

RISC-V 架构 中 明确 规定 ， 如 果 使 用 jal 指令 且 目 标 寄 | u| 二 ER 
存 器 索引 值 rd 等 于 x1 或 者 x5, 则 属于 需要 进行 RAS 压 栈 ; ph and pop 
如 果 使 用 jalr 指令 ， 则 按照 使 用 的 寄存 器 值 (rsl 和 rd) 的 NR NUI GE 
不 同 , 明确 规定 了 相应 的 RAS 压 栈 或 者 出 栈 行为 , 如 图 7-5 -V 架构 中 对 jalr 
所 示 〈 注 意 ， 图 中 的 ink 表示 x1 或 者 x5)。 i ong Ha 

通过 在 架构 文档 中 明确 规定 ， 并 规定 软件 编译 器 必须 按照 此 原则 生成 汇编 代码 ， 能 够 保 
证 硬件 的 行为 和 软件 匹配 吻合 ， 从 而 最 大 化 地 提高 RAS 的 预测 准确 性 。 





7.3 EGTXIDNES TTE: 


蜂鸟 E200 处 理 器 核 的 取 指 子 系统 处 于 流水 线 中 的 位 置 如 图 7-6 中 的 圆圈 区 域 所 示 ， 主 
要 包括 取 指 令 单 元 (Instruction Fetch Unit, IFU) 和 ITCM. 





快速 ID 接口 ICcB ”私有 设备 接口 IC8 ”系统 存储 接口 ICB ”CHNT 接 口 ICB — PLICIEDIICB 


LSU 访 问 BIU 接 口 ICB 





7-6 ”蜂鸟 E200 处 理 器 核 的 取 指 子 系统 结构 示意 图 


102 | 万 事 开头 难 吗 一 一 一 切 从 取 指 令 开始 


7.3.1 IFU 总 体 设 计 思 


蜂鸟 E200 的 IFU 微 架构 如 图 7-7 所 示 ， 其 主要 包括 如 下 功能 。 

。 对 取 回 的 地 址 进行 简单 译 码 (Mini-Decode)。 

e 简单 的 分 支 预测 〈Simple-BPU )。 "s——— — — 

。 生成 取 指 的 PC CPC 生成 )。 (Flush 

。 根据 PC 的 地 址 访问 ITCM EÈ BIU CHi 

址 判断 和 ICB 总 线 控制 )。 

IFU 在 取出 指令 后 ， 会 将 其 放置 于 和 EXU 
单元 接口 的 IR. (Instruction Register? 寄存 器 中 。 
该 指令 的 PC 值 也 会 被 放置 于 和 EXU 单元 接口 
的 PC 寄存 器 中 ,如 图 7-7 中 的 圆圈 所 示 ，EXU 
单元 将 使 用 此 IR 和 PC 进行 后 续 的 执行 操作 。 
AR EXU 单元 的 实现 细节 ， 请 参见 第 8 章 。 

在 第 7.1.1 节 中 曾经 探讨 ， 取 指令 的 要 点 是 
“ 快 ” 和 “连续 不 断 ”。 7-1 蜂鸟 E200 处理 器 核 IFU 微 架 构 示意 图 

(1) EXT “R”, 蜂鸟 E200 的 设计 理念 如 下 。 

e 蜂鸟 E200 假定 绝 大 多 数 的 取 指 都 发 生 在 ITCM F, 这 种 假定 具有 合理 性 。 因 为 蜂鸟 

E200 是 面向 藤 入 式 超 低 功 耗 场 景 设 计 的 小 面积 处 理 器 ， 没 有 使 用 I-Cache， 主 要 使 
用 ITCM 进行 执行 的 存储 以 满足 实时 性 的 要 求 。 这 种 级 别 的 丛 入 式 处 理 器 核 的 程序 
代码 量 不 大 ， 往 往 可 以 全 部 加 载 在 ITCM 中 执行 。 

e 蜂鸟 E200 的 ITCM 使 用 单 周 期 访问 的 SRAM， 即 可 以 一 个 周期 就 从 ITCM 中 取 回 

一 条 指令 。 因 此 假设 指令 存放 于 ITCM 中 ， 从 ITCM 中 取 指 理论 上 可 以 做 到 “ 快 ”。 

e 对 于 某 些 特殊 情况 ， 指 令 需 要 从 外 部 存储 器 中 读 取 【 璧 如 系统 上 电 后 的 引导 程序 可 

能 需要 从 外 部 Flash 中 读 取 )。 此 时 ，IFU 需要 通过 BIU 使 用 系统 存储 接口 访问 外 部 
的 存储 器 ， 访 问 延 迟 不 可 能 做 到 单 周 期 访问 。 因 此 对 于 外 部 存储 器 的 取 指 ， 性 能 无 
法 做 到 “ 快 ” 但 是 如 上 文 所 述 ， 蜂鸟 E200 假定 绝 大 多 数 的 取 指 都 发 生 在 ITCM nm, 
对 于 这 种 外 部 存储 器 的 访问 出 现 的 情形 非常 少 ， 因 此 对 这 种 情况 不 做 优化 。 

e 运行 于 蜂鸟 E200 上 的 软件 也 应 该 尽量 利用 “ 绝 大 多 数 的 取 指 都 发 生 在 ITCM 中 ”的 

假定 ， 尽 可 能 发 挥 处 理 器 核 的 性 能 。 

(2) 针对 “连续 不 断 ” 蜂鸟 E200 的 设计 思路 如 下 。 

e 为 了 能 够 连续 不 断 地 取 指 令 ， 需 要 每 个 周期 都 能 生成 下 一 条 待 取 指 令 的 PC 值 ， 

此 需要 判别 本 指令 的 类 型 是 普通 指令 还 是 分 文 跳 转 指令 ， 从 而 理论 上 需要 对 当前 取 
回 的 指令 进行 译 码 。 
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。 蜂鸟 E200 的 IFU 选择 直接 将 取 回 的 指令 在 同一 个 周期 内 进行 部 分 译 码 (如 图 7-7 中 
的 Mini-Decode)。 如 果 译 码 的 信息 指示 当前 指令 为 分 支 跳 转 指令 ， 则 IFU 直接 在 同 
一 个 周期 内 进行 分 支 预测 〈 如 图 7-7 中 的 Simple-BPU)。 最 后 ， 使 用 译 码 得 出 的 信 
息 和 分 支 预测 的 信息 进行 下 一 条 待 取 指令 PC 的 生成 (如 图 7-7 中 的 PC 生成 )。 

。 由 于 在 一 个 周期 内 完成 了 指令 读 取 (假设 是 从 ITCM 中 取 指 )、 部 分 译 码 、 分 支 预 测 
和 生成 下 一 条 待 取 指令 的 PC 等 连贯 操作 ， 因 此 理论 上 可 以 做 到 “连续 不 断 ”。 

e。 当然 ， 由 于 在 一 个 周期 内 完成 了 上 述 众 多 步骤 ， 时 序 上 的 关键 路 径 可 能 会 制约 蜂鸟 
E200 能 达到 的 最 高 主 频 。 一 方面 得 益 于 第 7.2 节 所 述 的 RISC-V 架构 的 简单 性 ， 指 
令 的 部 分 译 码 和 分 支 预测 消耗 的 还 辑 延 迟 并 不 算 太 大 ; 男 一 方面 蜂鸟 E200 的 设计 理 
念 重 在 强调 超 低 功 耗 和 小 面积 ， 对 于 最 高 主 频 选择 适当 的 放弃 。 

取 指 令 需 要 使 用 到 分 支 预 测 技术 ， 针 对 “分 支 预 测 ” 蜂鸟 E200 的 设计 理念 如 下 。 

。 蜂鸟 E200 作为 一 款 面 向 超 低 功 耗 的 处 理 器 ， 分 支 预 测 采 用 最 简单 的 静态 预测 。 

e 得 益 于 RISC-V 架构 明确 提供 了 对 于 静态 预测 的 依据 ， 因 此 蜂鸟 E200 的 静态 预测 对 
于 同 后 跳 转 的 条 件 分 支 指令 预测 为 真 的 跳 转 ， 而 对 于 向 前 跳 转 的 条 件 分 支 指令 预测 
为 不 需要 跳 转 。 

下 文 对 IFU 的 不 同 子 模块 予以 分 别论 述 。 


1.3.2 Mini-Decode 


Mini-Decode 模块 主要 用 于 对 取 回 的 指令 进行 译 码 ， 要 点 如 下 。 
e Mini-Decode 的 相关 源 代 码 在 e200 opensource 目录 的 结构 如 下 。 关 于 GitHub 网 站 上 
e200 opensource 开源 项 目的 完整 代码 层次 结构 详解 ， 请 参见 第 17.1 节 。 


e200 opensource 
|----rtl // 存放 RTL 的 目录 
|----e203 // E203 核 和 Soc 的 RTL 目录 
|----core // 存放 e203 Core 的 RTL 代码 
|----e203 ifu minidec.v  // Mini-Decode 模块 

e 之 所 以 称 为 Mini-Decode， 是 因为 此 处 的 译 码 并 不 需要 完整 译 出 指令 的 所 有 信息 ， 而 
只 需要 译 出 IFU 所 需 的 部 分 指令 信息 。 包 括 此 指令 是 属于 普通 指令 还 是 分 支 跳 转 指 
令 、 分 支 跳 转 指令 的 类 型 和 细节 。 

e Mini-Decode 模块 内 部 也 是 例 化 调用 一 个 完整 的 Decode 模块 ， 但 是 将 其 不 相关 的 输 
入 信号 接 零 、 输 出 信号 巧 空 不 连接 ， 从 而 使 得 综合 工具 将 完整 Decode Rk ERE 
辑 优 化 摊 ， 成 为 一 个 Mini-Decode。 之 所 以 使 用 这 种 方式 ， 是 因为 我 们 只 想 维护 一 份 
Decode 模块 的 源 代 码 ， 而 不 是 分 别 写 一 个 Full-Decode 和 Mini-Decode 模块 ， 从 而 避 
免 两 头 维护 同一 个 模块 而 出 错 的 情形 《在 工程 中 ， 修 改 了 一 份 文 件 而 忽略 了 另外 一 
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份 文件 造成 功能 出 错 的 情形 时 有 发 生 )。 
e Mini-Decode 模块 的 相关 的 源 代 码 片 段 如 下 所 示 。 


// e203 ifu minidec.v 源 代 码 片段 
module e203 ifu minidec( 


lVMIMPPMIMMMEMMIWIyMIMIEMEMMIEIIMWFMMMIMIMMgMgVMWIICbgMgKMMMEtVIMgMMMLldMa MM 
// The IR stage to Decoder 


input  ['E203 INSTR SIZE-1:0] instr, // 取 回 的 指令 输入 进行 部 分 译 码 


I HfMlil-llMPMP P C, IMP :.M NMMMMMIMEIMMPMIEIMIMMMMIMMIMM 
// The Decoded Info-Bus 


output dec rslen, 
output dec rs2en, 
output ['E203 RFIDX WIDTH-1:0] dec rslidx, 
output ['E203 RFIDX WIDTH-1:0] dec rs2idx, 


output dec_rv32，// 指 示 当 前 指令 为 16 位 还 是 32 位 
output dec bjp, // 指 示 当 前 指令 属于 普通 指令 还 是 分 支 跳 转 指令 
output dec jal, // 属于 JAL 指令 

output dec jalr, // 属于 JALR 指令 


output dec bxx, // 属于 Bxx 指令 (BEQ. BNE 等 带 条 件 分 支 指令 ) 
output ['E203 RFIDX WIDTH-1:0] dec jalr rslidx, 
output ['E203 XLEN-1:0] dec bjp imm 


); 


// 此 模块 内 部 例 化 调用 一 个 完整 的 Decode 模块 ,但 是 将 其 不 相关 的 输入 信号 接 零 、 输 出 信号 悬空 不 连 
接 ， 从 而 使 得 综合 工具 将 完整 Decode 模块 中 无 关 逻 辑 优 化 掉 ， 成 为 一 个 Mini-Decode 


e203 exu decode u e203 exu decode( 


.i instr(instr), 


.i_pc('E203_PC_SIZE'b0),// 不 相关 的 输入 信和 号 接 零 
.1 prdt taken(1'b0), 
.i muldiv b2b(1'b0), 


.i misalgn (1'b0), 
.i buserr  (1'b0), 


.dbg mode  (1'b0), 
.dec misalgn ()，// 不 相关 的 输出 信号 悬空 不 连接 
.dec buserr(), 


‘dec ilegl(), 


.dec rs1xO0(), 
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.dec rslen(dec rslen), 
.dec rs2en(dec rs2en), 
.dec rdwen(), 

.dec rslidx(dec rslidx), 
.dec rs2idx(dec rs2idx), 
.dec rdidx(), 

“dec info(), 

.dec imm(), 

.dec pc(), 


.dec mulhsu(dec mulhsu), 


.dec mul (dec mul y 
.dec div (dec div  ), 
.dec rem (dec rem Js 


.dec divu (dec diyu ), 
.dec remu (dec remu ), 


.dec rv32(dec rv32), 
.dec bjp (dec bjp ), 
.dec jal (dec jal ), 


.dec jalr(dec jalr), 
.dec bxx (dec bxx ), 


.dec jalr rslidx(dec jalr rslidx), 
.dec bjp imm (dec bjp imm ) 


.dec rs2x0(), 
) ; 
| 


endmodule 


7.3.8 Simple-BPU 分 支 预测 


Simple-BPU 模块 主要 用 于 对 取 回 的 指令 进行 Mini-Decode 后 发 现 的 分 支 跳 转 指令 进行 
分 文 预 测 。 之 所 以 称 为 Simple-BPU， 是 由 于 蜂鸟 E200 作为 一 款 面向 超 低 功 耗 的 处 理 器 ， 只 
采用 了 最 简单 的 静态 预测 ， 并 未 采用 其 他 高 级 动态 预测 技术 。Simple-BPU 的 相关 源 代码 在 
e200_opensource 目录 的 结构 如 下 。 关 于 GitHub 网 站 上 e200 opensource 开源 项 目的 完整 代 
但 层 识 结构 详解 ， 请 参见 第 17.1 节 。 

e200 opensource 

| = 一 一 一 交代 // 存放 RTL 的 目录 
| ----e203 // E203 核 和 Soc 的 RTL 目录 
|----core // 存放 e203 Core 的 RTL 代码 
|----e203 ifu litebpu.v // Simple-BPU 模块 
1. 带 条 件 直接 跳 转 指令 
对 于 带 条 件 直接 跳 转 指令 Bxx 指令 (BEQ、BNE 等 指令 ), 使 用 静态 预测 (向 后 跳 转 则 预 
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测 为 需要 跳 ， 否 则 预测 为 不 需要 跳 )。 而 对 于 其 跳 转 目标 地 址 ，Simple-BPU 按照 指令 的 定义 ， 
使 用 其 PC 和 立即 数 表 示 的 offset 相 加 得 到 其 跳 转 目标 地 址 。 相 关 的 源 代码 片段 如 下 所 示 。 


| // e203 ifu litebpu.v 源 代码 片段 


"xm 


// 如 果 立 即 数 表示 的 偏 移 量 (offset) 为 负数 (最 高 位 符号 位 为 1) ， 意 昧 着 方向 为 向 后 跳 转 ， 预 测 
为 需要 跳 转 。 
assign prdt taken = (dec jal | dec jalr | (dec bxx & dec bjp immn[ ' 了 203 
XLEN-1])); 


// 由 于 PC 计算 需要 使 用 到 加 法 器 ， 为 了 节省 面积 ， 所 有 的 PC 计算 均 共享 同一 个 加 法 器 。 
// 此 处 生成 分 支 预测 器 进行 PC 计算 所 需 的 操作 数 ， 将 送 给 共享 的 加 法 器 进行 计算 。 
// 生成 加 法 器 的 操作 数 一 : 如 果 是 Bxx 指令 ， 便 使 用 它 本 身 的 PC 
assign prdt pc add opl = (dec bxx | dec jal) ? pc['E203 PC SIZE-1:0] 
: (dec jalr & dec jalr rslx0) ? 'E203 PC SIZE'bO 
: (dec jalr & dec jalr rslx1l) ? rf2bpu x1['E203 PC SIZE-1:0] 
: rf2Dbpu rsi['E205 PC SIZE-1:0]; 


// 生成 加 法 器 的 操作 数 二 : 使 用 立即 数 表示 的 偏 移 量 
assign prdt pc add op2 = dec bjp imm|'E203 PC SIZE-1:0]; 


2. 无 条 件 直接 跳 转 指令 jal 

对 于 无 条 件 直 接 跳 转 指令 jal， 由 于 其 一 定 会 跳 转 ， 因 此 无 须 预测 其 跳 转 方向 。 而 对 于 
其 跳 转 目标 地 址 ，Simple-BPU 按照 指令 的 定义 ， 使 用 其 PC 和 立即 数 表示 的 offset 相 加 得 到 
其 跳 转 目标 地 址 。 相 关 的 源 代 码 户 段 如 下 所 示 。 
// e203 ifu litebpu.v 源 代 码 片段 


LIII 


// 由 于 PC 计算 需要 使 用 到 加 法 器 ， 为 了 节省 面积 ， 所 有 的 PC 计算 均 共享 同一 个 加 法 器 。 
// 此 处 生成 分 支 预测 器 进行 Pc 计算 所 需 的 操作 数 ， 将 送 给 共享 的 加 法 器 进行 计算 。 


// 生成 加 法 器 的 操作 数 一 : 如 果 是 jal 指令 ， 便 使 用 它 本 身 的 PC 





assign prdt pc add opl = (dec bxx | dec jal) ? pc['E203 PC SIZE-1:0] 
: (dec jalr & dec jalr rslx0) ? 'E203 PC SIZE'bO 
: (dec jalr & dec jalr rs1x1l) ? rf2bpu x1['E203 PC SIZE-1:0] 
: rf2bpu rs1['E203 PC SIZE-1:0]; 


// 生成 加 法 器 的 操作 数 二 : 使 用 立即 数 表示 的 偏 移 量 
assign prdt pc add op2 = dec bjp imm['E203 PC SIZE-1:0]; 


3. 无 条 件 间接 跳 转 指令 jalr 
对 于 无 条 件 间接 跳 转 指令 jalr， 由 于 其 一 定 会 跳 转 ， 因 此 无 须 预 测 其 跳 转 方向 。 而 对 于 
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跳 转 目标 地 址 ，jair 的 跳 转 目标 计算 所 需 的 基地 址 来 自 于 其 rsl 索引 的 操作 数 ， 需 要 从 通用 寄 
存 器 组 (Regfile) 中 读 取 ， 并 且 还 可 能 和 正在 EXU 执行 的 指令 形成 RAW 数据 相关 性 。 蜂 鸟 
E200 采用 了 一 种 比较 巧妙 的 方案 ， 根 据 rsl 的 索引 值 不 同 而 采取 不 同 的 方案 ， 要 点 如 下 。 








。 如果 rsl 的 索引 号 是 x0， 则 意味 着 直接 使 用 常数 0〈 根 据 RISC-V 架构 定义 x0 表示 
T8300, EAMA Regfile 中 读 取 。 相 关 的 源 代码 片段 如 下 所 示 。 
// e203 ifu 1itebpu.v 源 代码 片段 


/ /判定 xs1 的 索引 号 是 x0 
wire dec jalr rslix0 - (dec jalr rslidx == 'E203 RFIDX WIDTH'd0); 


// 由 于 PC 计算 需要 使 用 到 加 法 器 ， 为 了 节省 面积 ， 所 有 的 PC 计算 均 共 享 同一 个 加 法 器 。 
// 此 处 生成 分 支 预测 器 进行 PC 计算 所 需 的 操作 数 ， 将 送 给 共享 的 加 法 器 进行 计算 。 


// 生成 加 法 器 的 操作 数 一 : 
assign prdt pc add opl = (dec bxx | dec jal) ? pc['E203 PC SIZE-1:0] 
// 如 果 是 JALR 指令 且 rsl 为 x0， 便 使 用 常数 0 
: (dec jalr & dec jalr rs1x0) ? 'E203 PC SIZE'bO 
: (dec jalr & dec jalr rslx1) ? rf2bpu x1['E203 PC SIZE-1:0] 
: rf2bpu rs1['E203 PC SIZE-1:0]; 


// 生成 加 法 器 的 操作 数 二 : 使 用 立即 数 表 示 的 偏 移 量 
assign prdt pc add op2 = dec bjp imm['E203 PC SIZE-1:0]; 


。 如果 rsl 的 索引 号 是 x1， 由 于 xl 常用 于 link 寄存 器 作为 函数 返回 跳 转 指令 ， 因 此 蜂 
& E200 对 其 进行 特别 加 速 ， 将 xl 从 处 于 EXU 的 Regfile 中 直接 拉线 取出 (不 需要 
占用 Regfile 的 读 端 口 )。 为 了 防止 正在 处 于 EXU 中 执行 的 指令 需要 写 回 xl 造成 RAW 
数据 相关 性 ，Simple-BPU 需要 判定 当前 的 EXU 指令 没有 写 回 x1， 并 且 还 需要 判定 
OITF (有 关 OITF 的 相关 信息 请 参见 第 8.3.7 节 ) 为 空 。 相关 的 源 代码 片段 如 下 所 示 。 

// e203 ifu litebpu.v 源 代码 片段 


/ /判定 xs1 的 索引 号 是 x1 
wire dec jalr rslxl = (dec jalr rslidx == 'E203 RFIDX WIDTH'dl); 


/ / TE xl 是 否 可 能 与 EXU 中 的 指令 存在 潜在 的 RAW 数据 相关 性 。 在 两 种 情况 下 可 能 出 现 RAW 相关 性 : 


/ / 1: ”OITEF 不 为 空 ， 意 味 着 可 能 有 长 指令 正在 执行 ， 其 结果 可 能 会 写 回 xl1。 当 然 也 有 可 能 
// 长 指令 写 回 的 结果 寄存 器 不 是 x1， 但 是 此 处 我 们 采取 简单 的 保守 估计 ， 对 于 造成 
// 的 性 能 损失 不 在 意 。 有 关 oITF 和 长 指令 的 相关 信息 ， 请 参见 第 8.3.7 节 了 解 更 多 
/ / 信息 。 


// 2. ”处 于 IR 寄存 器 中 的 指令 的 写 回 目标 寄存 器 的 索引 号 为 x1, 意味 着 有 RAW 数据 相关 性 。 
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wire jalr rslxl dep = dec i valid & dec jalr & dec jalr rslxl & ((-oitf e 
mpty) | (jalr rslidx cam irrdidx)); 


// 如 果 存 在 着 xl 的 RAW 相关 性 ， 则 将 bpu wait 拉 高 ， 此 信和 号 将 阻止 IFU 生成 下 一 个 PCc， 等 待 相关 
// 性 解除 。 

// 因 此 就 性 能 而 言 ， 

// 1: 如 果 xil 依赖 于 EXU 的 ALU 指令 (大 多 数 情况 ), 需要 等 待 1 个 周期 ALU 执行 完毕 写 回 Regfile 
// 后 ，bpu wait 信号 才 会 拉 低 进而 继续 取 指 。 流 水 线 中 会 因此 出 现 1 个 周期 的 空 泡 性 能 损失 。 
// 2: 如 果 xl 和 EXU 中 的 指令 没有 数据 相关 性 ， 则 不 会 造成 将 bpu wait 拉 高 ， 不 会 有 任何 的 性 能 损失 。 


assign bpu wait = jalr rs1x1 dep | jalr rslxn dep | rslxn rdrf set; 


// 由 于 PC 计算 需要 使 用 到 加 法 器 ， 为 了 节省 面积 ， 所 有 的 PC 计算 均 共 享 同一 个 加 法 器 。 
// 此 处 生成 分 支 预测 器 进行 PC 计算 所 需 的 操作 数 ， 将 送 给 共享 的 加 法 器 进行 计算 。 


| // 生成 加 法 器 的 操作 数 一 : 
assign prdt pc add opl = (dec bxx | dec jal) ? pc['E203 PC SIZE-1:0] 
: (dec jalr & dec jalr rsl1lx0) ? 'E203 PC SIZE'bO 
// 如 果 是 JALR 指令 且 xsl 为 xL1， 便 使 用 从 Regfile 中 硬 连 线 出 来 的 xl 值 
: (dec jalr & dec jalr rs1x1l) ? rf2bpu x1['E203 PC SIZE-1:0] 
: rf2bpu rs1['E203 PC SIZE-1:0]; 


| // 生成 加 法 器 的 操作 数 二 : 使 用 立即 数 表 示 的 偏 移 量 
| assign prdt pc add op2 = dec bjp imm['E203 PC SIZE-1:0]; 


。 WR rsl 的 索引 号 是 除了 x0 和 xl 的 其 他 寄存 器 (简称 xn), ES, E200 对 其 不 进行 
特别 加 速 。xn 需要 使 用 Regfile 的 第 1 个 读 端口 (Read Port 1) 从 Regfile 中 读 取 出 
来 ， 因 此 需要 判定 当前 第 1 个 读 端 口 是 否 空闲 且 不 存在 资源 冲突 (参见 第 8.3.4 节 了 
HAR Regfile 实现 的 信息 )。 并且 , 为 了 防止 正在 处 于 EXU 中 执行 的 指令 需要 写 回 
xn 造成 RAW 数据 相关 性 ，Simple-BPU 需要 判定 当前 的 EXU 中 没有 任何 指令 。 相 
天 的 源 代 码 片 段 如 下 所 示 。 


// e203 ifu litebpu.v 源 代码 片段 


// 判 定 xs1 的 索引 号 是 xn 
wire dec jalr rslxn = (-dec jalr rs1x0) & (-dec jalr rs1x1); 


/ /判定 xn 是 否 可 能 与 EXU 中 的 指令 存在 潜在 的 RAW 数据 相关 性 ， 在 两 种 情况 下 可 能 出 现 RAW 相关 性 。 


/ / 1: ”OITF 不 为 空 ， 意 味 着 可 能 有 长 指令 正在 执行 ， 其 结果 可 能 会 写 回 xn。 当 然 也 有 可 能 
// 长 指令 写 回 的 结果 寄存 器 不 是 xn， 但 是 此 处 我 们 采取 简单 的 保守 估计 ， 对 于 造成 

/ / 的 性 能 损失 不 在 意 。 有 关 oITF 和 长 指令 的 相关 信息 ， 请 参见 第 8.3.7 节 

/ / 2: 在 IR 寄 存 器 中 存在 指令 ， 意 味 着 可 能 会 写 回 xn。 当 然 也 有 可 能 该 指令 写 回 的 结果 寡 


// 存 器 不 是 xn， 但 是 此 处 我 们 采取 简单 的 保守 估计 ， 不 在 意 造成 的 性 能 损失 。 
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| wire jalr rslxn dep - dec i valid & dec jalr & dec jalr rslxn & ((-oitf emp 
ty) | (~ir empty)); 


// 需 要 征用 Regfile 的 第 1 个 读 端口 从 Regfile 中 读 取 xn 的 值 ， 需 要 判断 第 1 个 读 端 口 是 否 空 





// 闲 不 存在 资源 冲突 。 
/ /如 果 没 有 资源 冲突 和 数据 冲突 时 ， 则 将 征用 第 1 个 读 端 口 的 使 能 置 高 
wire rslxn rdrf set = (-rslxn rdrf r) & dec i valid & dec jalr & dec jalr 
| rslxn & ((-jalr rslxn dep) | jalr rslxn dep ir clr); 


| wire rslxn rdrf clr = rsixn rdrf t; 
| wire rslxn rdrf ena rsixn rdrf set | rslxn rdrf clr; 
wire rslxn rdrf nxt rsixn rdrf set | (-rsixn rdrf clr); 


sirv gnrl dfflr £$(1) rslxn rdrf dfflrs(rslxn rdrf ena, rslxn rdrf nxt, rs 
ixn rdrf r; clk, rst n); 


// 生 成 征用 第 1 个 读 端 口 的 使 能 信和 号, 该 信号 将 加 载 和 IR 寄存 器 位 于 同一 级 的 rsl 索引 (index) 寄 存 器 ， 
// 从 而 读 取 Regfile 


assign bpu2rf rsl ena = rslxn rdrf set; 


// 将 bpu wait 拉 高 。 此 信号 将 阻止 IFU 生成 下 一 个 Fc， 直到 相关 性 解除 并 且 从 Regfile 中 已 经 读 
// 出 xn 的 值 。 

// 因 此 就 性 能 而 言 ， 由 于 需要 征用 Regfile 的 第 1 个 读 端口 读 取 xn 的 值 ， 即 便 没有 数据 相关 性 ， 

// 也 需要 最 少 等 待 1 个 周期 。 


assign bpu wait = jalr rslxl dep | jalr zslxn dep | rsixn rdrf set; 





| // 由 于 PC 计算 需要 使 用 到 加 法 器 ， 为 了 节省 面积 ， 所 有 的 PC 计算 均 共 享 同一 个 加 法 器 。 
// 此 处 生成 分 支 预测 器 进行 PC 计算 所 需 的 操作 数 ， 将 送 给 共享 的 加 法 器 进行 计算 。 


// 生成 加 法 器 的 操作 数 一 : 
assign prdt pc add opl = (dec bxx | dec jal) ? pc['E203 PC SIZE-1:0] 
: (dec jalr & dec jalr rs1x0) ? 'E203 PC SIZE'bO 
: (dec jalr & dec jalr rslx1) ? rf2bpu x1['E203 PC SIZE-1:0] 
// 如 果 是 JALR 指令 上 且 rs1 为 xn， 便 使 用 从 Regfile 的 第 1 个 读 端口 中 读 取出 来 
// 的 xn 值 
: rf2bpu rs1['E203 PC SIZE-1:0]; 


// 生成 加 法 器 的 操作 数 二 : 使 用 立即 数 表示 的 偏 移 量 
assign prdt pc add op2 = dec bjp imm['E203 PC SIZE-1:0]; 





s^ 


7.3.4 PC 生成 
PC 生成 逻辑 用 于 产生 下 一 个 待 取 指令 的 PC，PC 生成 根据 不 同 的 情形 需要 不 同 处 理 。 
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e 如 果 是 reset 后 的 第 一 次 取 指 ， 使 用 蜂 乌 E200 的 CPU-TOP 顶层 输入 信号 pc rtvec 
指示 的 值 作为 第 一 次 取 指 的 PC 值 。 用 户 可 以 通过 在 SoC 顶层 集成 时 ， 将 此 信号 赋 
予 不 同 的 值 来 控制 PC 的 复位 默认 值 。 

。 对 于 顺序 取 指 的 情形 ， 根 据 当 前 指令 是 16 位 指令 还 是 32 位 指令 判断 自 增 值 。 如 果 
是 16 位 指令 ， 顺 序 取 指 的 下 一 条 指令 的 PC 为 PC+2; 如 果 是 32 位 指令 ， 则 顺序 取 
指 的 下 一 条 指令 的 PC 为 PC+4。 

e 如 果 是 分 支 指令 ， 则 使 用 Simple-BPU 预测 的 跳 转 目标 地 址 。 

。 如 果 是 来 自 于 EXU 的 流水 线 冲刷 ， 则 使 用 EXU 送 过 来 的 新 PC 值 。 

PC 生成 的 相关 源 代码 在 e200 opensource 目录 的 结构 如 下 。 关 于 GitHub 网 站 上 

e200 opensource 开源 项 目的 完整 代码 层次 结构 详解 ， 请 参见 第 17.1 节 。 


e200 opensource 


[ai // 存放 RTL 的 目录 
[7—--28203 // E203 Hifl soc 的 RTL 目录 
| ----core // 存放 e203 Core 的 RTL 代码 
|----e203 ifu ifetch.v // 包含 PC 生成 的 fetch 模块 
PC 生成 的 相关 源 代 码 片 段 如 下 所 示 。 


// e203 ifu ifetch.v 源 代码 片段 


// 生 成 Pc 自 增 值 ， 如 果 当 前 指令 为 32 位 ， 则 顺序 取 指 的 下 一 条 指令 PC 需要 加 4， 否 则 加 2 


wire [2:0] pc incr ofst = minidec rv32 ? 3'd4 ; 3'd2; 


wire ['E203 PC SIZE-1:0] pc nxt pre; 
wire ['E203 PC SIZE-1:0] pc nxt; 


// 表 示 跳 转 取 指 令 的 信号 : 如 果 是 分 支 跳 转 指令 ， 且 Simple-BPU 预测 需要 跳 转 ， 则 跳 转 取 指 


wire bjp req = minidec bjp & prdt taken; 


// 由 于 PC 计算 需要 使 用 到 加 法 器 ， 为 了 节省 面积 ， 所 有 的 PC 计算 均 共享 同一 个 加 法 器 。 
// 此 处 选择 加 法 器 的 输入 。 


wire ['E203 PC SIZE-1:0] pc add opl = 
// 如 果 是 跳 转 取 指 ， 则 使 用 Simple-BPU 产生 的 加 法 操作 数 一 
bjp req ? prdt pc add opl : 
// 如 果 是 reset 后 取 指 ， 则 使 用 pe_rtvec 信号 的 值 
ifu reset req  ? pc rtvec : 
// 否则 为 顺序 取 指 ， 则 使 用 当前 的 PC 值 


pc r; 


wire ['E203 PC SIZE-1:0] pc add op?2 = 
// 如 果 是 跳 转 取 指 ， 则 使 用 Simple-BPU 产生 的 加 法 操作 数 二 
bjp req ? prdt pc add op2 : 
// 如 果 是 reset 后 取 指 ， 操 作 数 二 为 0， 则 相 加 后 仍 等 于 pc _rtvec 
ifu reset req ? 'E203 PC SIZE'bO : 
// 否则 为 顺序 取 指 ， 则 使 用 Pc 自 增值 
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pc incor ofst ; 


/ /表示 顺序 取 指 令 的 信和 号: 在 没有 reset. QA ELlush， 不 是 分 支 跳 转 指令 的 情况 下 就 是 顺序 取 指 


assign ifu req seq = (-pipe flush req real) & (-ifu reset req) & (~bjp_ req); 


// 加 法 器 计算 下 一 条 待 取 指令 的 PC 初步 值 
assign pc nxt pre = pc add opl + pc add op2; 


assign pc nxt - 

// 如 果 EXU 产生 流水 线 冲 刷 ， 则 使 用 EXU 送 过 来 的 新 PCÍÉ (pipe flush pc) 
pipe flush req ? (pipe flush pc['E203 PC SIZE-1:1],1'5b0) : 
dly pipe flush req ? fpe r['E203 PC SIZE-1:1],1'b0) : 

// 和 否则 使 用 前 面 计算 出 的 PC 3727 
(pc nxt pre['E203 PC SIZE-1:1],1'50); 


// 产生 下 一 条 待 取 指令 的 PC 值 
sirv gnrl dfflr £$('E203 PC SIZE) pc dfflr (pc ena, pc nxt, pc r; clk, rst n); 


7.3.5 访问 ITCM 和 BIU 


1. 支持 16 位 指令 

在 第 2.2.11 节 中 介绍 了 RISC-V 架构 定义 的 压缩 指令 子 集 为 16 位 , 而 蜂鸟 E200 为 了 提 
高 代码 密度 选择 支持 此 指令 子 集 , 从 而 会 出 现 程序 流 中 的 32 位 和 16 位 指令 混合 交织 在 一 起 
的 情形 ， 而 32 位 指令 可 能 处 于 与 32 位 地 址 边界 非 对 齐 的 位 置 。 处 理 此 种 非 对 齐 的 情形 成 为 
蜂鸟 E200 IFU 的 主要 复杂 点 ,其 相关 源 代 码 在 e200- opensource 目录 的 结构 如 下 。 关 于 GitHub 
网 站 上 e200_opensource 开源 项 目的 完整 代码 层次 结构 详解 ， 请 参见 第 17.1 节 。 


e200 opensource 
|----rtl Ff 存放 RTL 的 目录 
| ----e203 // E203 核 和 Soc 的 RTL 目录 
| |----core // 存放 e203 Core 的 RTL 代码 
| |----e203 ifu ift2icb.v // 包含 非 对 齐 访问 逻辑 的 模块 
在 第 7.1.3 节 中 介绍 了 对 于 非 对 齐 指令 取 指 的 和 常见 技术 , 蜂 乌 E200 采取 了 其 中 的 剩余 绥 
存 (Leftover Buffer) 技术 。 其 要 点 如 下 。 
IFU 每 次 取 指 的 固定 宽度 为 32 位 ， 即 每 次 试图 取 回 32 位 的 指令 字 。 
e 如 果 访 问 的 是 ITCM， 由 于 ITCM 是 由 SRAM 构成 的 ， 因 此 上 次 访问 读 过 SRAM 之 
后 ，SRAM 的 输出 值 会 一 直 保 存 住 〈 直 到 下 次 SRAM 被 再 次 读 或 者 写 过 )， 称 之 为 
Hold-up 住 ,蜂鸟 E200 的 IFU 会 利用 SRAM 输 出 Hold-up 的 这 个 特点 ,而 不 是 将 ITCM 
的 输出 使 用 D Flip-Flops 寄存 住 ， 此 方法 可 以 省 略 一 个 64 比特 的 寄存 器 开销 。 
e 由 于 ITCM 的 SRAM 宽度 为 64 位 ,因此 其 输出 为 一 个 与 64 位 地 址 区 间 对 齐 的 数据 ， 
在 此 称 为 一 个 Lane。 假 设 是 地 址 自 增 的 顺序 取 指 ， 由 于 IFU 每 次 只 取 32 位 ， 因 此 
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会 连续 两 次 或 者 多 次 在 同一 个 Lane 里 面 访 问 。 如 果 上 次 已 经 访问 了 ITCM 的 SRAM 
下 一 次 取 指 在 同一 个 Lane 的 访问 不 会 再 次 真 的 读 SRAM ( 即 不 会 打开 SRAM 的 CS 
使 能 )， 而 是 利用 SRAM 的 Hold-up 特点 ， 直 接 使 用 其 保持 不 变 的 输出 ,这样 可 以 省 
却 SRAM 重复 打开 造成 的 动态 功 耗 。 

。 如 果 顺 序 取 指 令 一 个 32 位 的 指令 其 非 对 齐 地 跨越 了 64 位 边界 ,那么 会 将 SRAM 当 
前 输出 的 最 高 16 位 存 入 16 比特 宽 的 剩余 缓存 (Leftover Buffer) 之 中 ， 并 发 起 新 的 
ITCM SRAM 访问 操作 , 然后 将 新 访问 ITCM SRAM 返回 的 低 16 位 与 剩余 缓存 中 的 
值 拼 接 成 为 一 个 32 位 的 完整 指令 。 因 此 等 效 于 仍然 只 需要 一 个 周期 ITCM 访问 便 可 
取 回 32 位 指令 ， 不 会 造成 性 能 损失 。 

。 如 有 果 是 非 顺序 取 指 〈 分 文 跳 转 或 者 流水 线 神 刷 等 )， 且 地 址 为 非 对 齐 地 路 越 了 64 位 
边界 ， 那 么 就 需要 连续 发 起 两 次 ITCM 读 操 作 。 第 一 次 读 回 数据 的 高 16 位 存 入 剩余 
缓存 中 ， 第 二 次 读 回 的 低 16 位 与 剩余 缓存 中 的 值 拼 接 成 为 一 个 32 位 的 完整 指令 。 
因此 需要 两 个 周期 的 访问 才能 取 回 32 位 指令 ， 会 造成 额外 的 一 个 周期 性 能 损失 。 由 
于 蜂鸟 E200 的 IFU 并 没有 设计 多 体 (Bank) 化 的 ITCM， 因 此 一 个 周期 损失 在 所 难 
fao HFIS E200 是 重点 关注 超 低 功 耗 的 小 面积 ， 因 此 对 此 性 能 点 选择 放弃 。 

相关 的 源 代码 片段 如 下 所 示 。 


// e203 ifu ift2icb.v 源 代码 片段 


// 处 理 非 对 齐 取 指 的 主要 状态 机 控制 


// State 0: The idle state, means there is no any outstanding ifetch request 
localparam ICB STATE IDLE - 2'd0; 

// State 1: Issued first request and wait response 

localparam ICB STATE 1ST = 2'd1; // 如 果 非 对 齐 需要 发 起 两 次 读 取 操 作 的 第 一 次 读 取 状 态 
// State 2: Wait to issue second request 

localparam ICB STATE WAIT2ND = 2'd2;// 第 一 次 和 第 二 次 读 取 之 间 的 等 待 状态 

// State 3: Issued second request and wait response 


localparam ICB STATE 2ND = 2'd3; // 如 果 非 对 齐 需 要 发 起 两 次 读 取 操作 的 第 二 次 读 取 状态 


wire [ICB STATE WIDTH-1:0] icb state nxt; 
wire [ICB STATE WIDTH-1:0] icb state r; 
wire icb state ena; 

wire [ICB STATE WIDTH-1:0] state idle nxt 
wire [ICB STATE WIDTH-1:0] state 1st nxt 
wire [ICB STATE WIDTH-1:0] state wait2nd nxt; 
wire [ICB STATE WIDTH-1:0] state 2nd nxt 
wire state idle exit ena 

wire state Ist exit ena 

wire state wait2nd exit ena 

wire state 2nd exit ena z 
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// Define some common signals and reused later to save gatecounts 
wire icb sta is idle (icb state r ICB STATE IDLE ) ; 


wire icb sta is 1st = (icb state r 一 一 ICB STATE 1ST ) ; 
wire icb sta is wait2nd = (icb state r == ICB STATE WAIT2ND); 
wire icb sta is 2nd = (icb state r == ICB STATE 2ND ); 


// The next-state is onehot mux to select different entries 
assign icb state nxt - 


((ICB STATE WIDTH(state idle exit ena )) & state idle nxt ) 

| ((ICB STATE WIDTH(state lst exit ena )) & state Ist nxt ) 
| ((ICB STATE WIDTH(state wait2nd exit ena}} & state wait2nd nxt) 

E x & state 2nd nxt ) 


| ((ICB STATE WIDTH(state 2nd exit ena }} 


, 


sirv gnrl dfflr #(ICB STATE WIDTH) icb state dfflr (icb state ena, icb 


state nxt, icb state r, clk, rst n); 


[III 


// 加 载 剩余 缓存 的 使 能 信和 号 


assign leftover ena - 


// 顺 序 取 指 跨 界 时 加 载 当前 rTCM 输出 的 最 高 16 比特 


holdup2leftover ena | 


// 非 顺序 取 指 跨 界 时 发 起 两 次 读 操 作 ， 第 一 次 读 操作 返回 后 加 载 输出 的 最 高 16 比特 


uoplst2leftover ena; 


assign leftover nxt - 


put2leftover data[15:0] // 总 是 加 载 输出 的 最 高 16 比特 
// 实现 剩余 缓存 的 寄存 器 


sirv gnrl dffl f$(16)leftover dffl(leftover ena, leftover nxt,leftover r, 
clk); 


. 
r 


上 述 代码 片段 只 是 其 代码 的 很 小 一 部 分 ，e203 ifu ift2icb 模块 可 能 是 蜂鸟 E203 的 IFU 
中 最 复杂 的 模块 ， 如 果 感 兴趣 的 读者 请 自行 仔细 阅读 GitHub 中 的 源 代码 。 


2. 生成 ICB 接口 访问 ITCM 和 BIU 


蜂鸟 E200 的 IFU、ITCM 和 BIU 分 开 实 现 ，IFU 使 用 标准 的 ICB 协议 进行 接口 。ICB 


是 蜂鸟 E200 目 定 义 的 接口 协议 ， 有 关 此 接口 协议 的 详细 信息 ， 请 参见 第 12.2 节 。 


IFU 生成 ICB 接口 访问 ITCM 和 BIU 的 相关 源 代 码 在 e200_ opensource 目录 的 结构 如 下 。 


XT GitHub 网 站 上 e200 opensource 开源 项 目的 完整 代码 层次 结构 详解 ， 请 参见 第 17.1 节 。 


| 
| 
| 


e200 opensource 


|----rtl // 存放 RTL 的 目录 
| ----e203 // E203 核 和 Soc ff] RTL 目录 
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| -—---core / / 存放 e203 Core 的 RTL 代码 
|----e203 ifu ift2icb.v // 生成 ICB 接口 访问 ITCM 和 BIU 的 模块 


其 要 后 如 下 。 

e IFU 有 两 个 ICB 接口 ， 一 个 用 于 访问 ITCM (数据 宽度 为 64 位 )， 另 一 个 用 于 访问 
BIU 〈 数 据 宽 度 为 32 位 )。 

e 根据 IFU 访问 的 地 址 区 间 进 行 判断 , 如 果 访 问 的 地 址 落 在 ITCM DX jg], 则 通过 ITCM 
的 ICB 接口 对 其 进行 访问 ， 和 否则 通过 BIU 的 ICB 对 外 部 存储 进行 访问 。 

相关 源 代 码 片 段 如 下 所 示 。 


// e203 ifu ift2icb.v 源 代码 片段 


// 访问 ITCM 的 ICB 接口 
'ifdef E203 HAS ITCM //{ 
AAA 
/WMIMMPMIMEEEIEM M MEII-MIMPMgB'ÁM|M|IM Pg MMMM E MP P LILI VV MV P P P «,PLI^—«pC M MP P MM IM PM MIIMTM 
// The ITCM address region indication signal 
input ['E203 ADDR SIZE-1:0] itcm region indic, 
// Bus Interface to ITCM, internal protocol called ICB (Internal Chip Bus) 
Lh * Bus cmd channel 
output ifu2itcm icb cmd valid, // Handshake valid 
input ifu2itcm icb cmd ready, // Handshake ready 
// Note: The data on rdata or wdata channel must be naturally 
/ / aligned, this is in line with the AXI definition 
output ['E203 ITCM ADDR WIDTH-1:0] ifu2itcm icb cmd addr, 


hj * Bus RSP channel 
input ifu2itcm icb rsp valid, // Response valid 
output ifu2itcm icb rsp ready, // Response ready 
input  ifu2itcm icb rsp err, // Response error 
// Note: the RSP rdata is inline with AXI definition 
input  ['E203 ITCM DATA WIDTH-1:0] ifu2itcm icb rsp rdata, 


'endif//) 


// 访问 BIU 的 ICB 接口 


'ifdef E203 HAS MEM ITF //| 

lg P LC B B B LG EN INELEHNLdIETIgBgGL ER AAA 

VMIMMLMMP MB MMIM—Lllllllllllll ll IM  MMIMEPMMIEEIMMPEgI€M«IMII lE! VIP MM M4 

// Bus Interface to System Memory, internal protocol called ICB (Internal 

Chip Bus) 

/ / * Bus cmd channel 

output ifu2biu icb cmd valid, // Handshake valid 

input ifu2biu icb cmd ready, // Handshake ready 
// Note: The data on rdata or wdata channel must be naturally 
/ / aligned, this is in line with the AXI definition 

output ['E203 ADDR SIZE-1:0] ifu2biu icb cmd addr, 
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/ / * Bus RSP channel 
input ifu2biu icb rsp valid, // Response valid 
output ifu2biu icb rsp ready, // Response ready 
input  ifu2biu icb rsp err, // Response error 
// Note: the RSP rdata is inline with AXI definition 
input ['E203 SYSMEM DATA WIDTH-1:0] ifu2biu icb rsp rdata, 


'endif//) 





// 判断 地 址 访问 地 址 区 间 是 否 落 在 ITCM [X [8] 
'ifdef E203 HAS ITCM //( 
// 使 用 比较 逻辑 比较 地 址 的 高 位 基地 址 是 否 与 ITCM 的 基地 址 相等 
assign ifu icb cmd2itcm = (ifu icb cmd addr['E203 ITCM BASE REGION] == it 


| cm region indic['E203 ITCM BASE REGION]); 


/ /f& 1TCM B) ICB Command Channel 的 valid 信号 拉 高 (如 果 访 问 ITCM) 
| assign ifu2itcm icb cmd valid = ifu icb cmd valid & ifu icb cmd2itcm; 


'endif//) 


'ifdef E203 HAS MEM ITF //( 
/ /如果 没 有 落 在 1 TCM 则 需要 访问 BIU 
assign ifu icb cmd2biu = 1'þ1 
‘ifdef E203 HAS ITCM //{ 
& -(ifu icb cmd2itcm) 
'endif//) 


. 
, 





// 将 BIU 的 ICB Command Channel 的 valid 信号 拉 高 (如 果 访 问 BIU) 
wire ifu2biu icb cmd valid pre = ifu icb cmd valid & ifu icb cmd2biu; 
'endif//) 


[ILLI 


7.3.6 ITCM 


蜂鸟 E200 采用 ITCM 作为 指令 存储 , 如 图 7-6 所 示 , IFU 有 专门 访问 ITCM 的 数据 通道 (64 
位 宽 ), 同时 ITCM 也 能 够 被 load. store 指令 访问 到 用 于 存储 数据 , 因此 ITCM 本 身 也 是 Memory 
子 系统 的 重要 一 部 分 。 有关 ITCM 的 微 架 构 细节 请 参见 第 11.4.4 节 ， 本 章 在 此 不 做 装 述 。 

值得 强调 的 是 ,蜂鸟 E200 的 ITCM 存储 器 主体 由 一 块 数据 宽度 为 64 比特 的 单口 SRAM 
组 成 。ITCM 的 大 小 和 基地 址 (位 于 全 局 地 址 空间 中 的 起 始 地 址 ) 可 以 通过 config.v "PESE 
定义 参数 配置 ， 请 参见 第 4.6 节 了 解 相 关 可 配置 的 信息 。 

ITCM 采用 数据 宽度 为 64 位 能 够 取得 更 低 的 功 耗 开销 ， 基 于 如 下 原因 。 

e 首先 ， 容量 不 是 特别 大 的 SRAM, 使 用 宽度 为 64 位 的 SRAM 在 物理 大 小 上 比 32 位 

的 SRAM 面积 更 加 紧凑 。 因 此 在 同样 容量 大 小 下 ,ITCM 使 用 64 位 的 数据 宽度 比 使 
用 32 比特 的 数据 宽度 面积 更 小 。 
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e。 其 次 , 程序 在 执行 的 过 程 中 大 多 数 情形 是 顺序 取 指 令 ， 而 64 位 宽 的 ITCM 可 以 一 次 
取出 64 位 的 指令 流 ， 相 比 于 从 32 位 宽 的 ITCM 中 连续 读 两 次 取出 64 位 的 指令 流 ， 
只 读 一 次 64 位 宽 的 SRAM 能够 消耗 更 少 的 动态 功 耗 。 


7.3.7 BIU 


如 果 取 指令 的 地 址 不 落 在 ITCM 所 在 的 区 间 , IFU 则 会 通过 BIU 访问 外 部 的 存储 器 ， 有 
X BIU 的 微 架 构 细 节 请 参见 第 12.4 节 ， 在 此 不 做 装 述 。 


EC 


取 指 是 处 理 器 设计 非常 重要 且 非 稼 复杂 的 一 部 分 ， 为 了 做 到 “ 快 ” 和 “连续 不 断 ” 地 取 
指 ， 尤 其 是 涉及 高 级 的 动态 分 支 预测 之 后 ， 取 指 部 分 的 设计 将 会 非常 复杂 和 具有 挑战 性 。 
处 理 器 微 架构 设计 本 身 就 是 一 个 折 中 的 过 程 ， 跟 RISC-V 架构 的 哲学 一 样 ， 作 者 比较 欣 
赏 人 硬件 简单 就 是 美的 设计 哲学 。 硬 件 设计 应 该 奶 求 可 靠 的 简单 而 不 是 复杂 ， 所 谓 “ 好 钢 用 在 
JNE”, 只 对 最 常见 的 情形 进行 性 能 优化 ， 而 对 不 常见 的 情形 牺牲 其 性 能 而 换 来 硬件 结构 
的 简单 可 徘 。 
蜂鸟 E200 的 取 指 设计 便 始 终 贯 穿 此 设计 哲学 。 蜂 鸟 E200 处 理 器 核 的 设计 目标 是 面 加 
ERIRE RAIRA AA KRAMA EER. 
e 一 方面 为 了 低 功 耗 、 小 面积 的 目的 ， 舍 弃 了 很 多 复杂 的 技术 ， 壁 如 只 采用 静态 分 文 
预测 而 未 采用 动态 分 支 预测 ， 只 对 ITCM 访问 进行 优化 ， 而 对 BIU 访问 放弃 优化 。 
。 男 一 方面 义 保证 最 常见 的 情形 下 性 能 可 观 ， 壁 如 对 ITCM 区 间 内 的 顺序 取 指 ， 不 管 
地 址 是 否 对 齐 ， 都 能 做 得 到 “ 快 ” 和 “连续 不 断 ” 地 取 指 。 
综 上 原因 ， 蜂 鸟 E200 最 终 的 测试 基准 (Benchmark) 跑 分 在 同 级 别 的 处 理 器 核 中 更 具 
竞争 力 ， 同 时 仍然 保持 了 相当 小 的 面积 和 相当 低 的 功 耗 。 有 关 蜂 鸟 E200 运行 测试 基准 的 跑 
分 信息 ， 请 参见 第 20 章 。 


fA 





snm 








$855 ”一鼓作气 ， 
而 竭 , 彼 竭 我 盈 也 ! 
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在 上 一 章 我 们 介绍 了 处 理 器 流水 线 的 “ 取 指 ”单元 ， 在 流水 线 中 取 指 之 后 便 是 “ 译 码 ” 
和 “执行 >”。 执 行 力 是 关键 ， 本 章 将 简要 介绍 处 理 器 的 “执行 ”功能 ， 并 介绍 蜂鸟 E200 处 理 
器 核 执 行 单元 (Execution Unit, EXU) 的 微 架 构 和 源码 分 析 。 


8.1 


8.1.1 指令 译 码 


在 第 6 章 介绍 的 经 典 五 级 流水 线 中 ， 取 指 之 后 的 下 一 级 流水 线 是 “ 译 码 ”(Decode)。 由 
于 指令 所 包含 的 信息 编码 在 有 限 长 度 的 指令 字 中 (16 位 指令 或 者 32 位 指令 )， 因 此 需要 译 
码 将 信息 从 指令 字 中 翻译 出 来 ， 和 常见 的 信息 如 下 。 

。 指令 所 需要 读 取 的 操作 数 寄存 器 索引 (Index )。 

。 指令 需要 写 回 的 寄存 器 索引 。 

e 指令 的 其 他 信息 ， 璧 如 指令 类 型 、 指 令 的 操作 信息 等 。 

在 经 典 的 五 级 流水 线 中 , 在 译 码 阶段 直接 使 用 译 码 出 的 读 操作 数 寄存 器 索引 ， 将 操作 数 
从 通用 寄存 器 组 (Regfile) 中 读 取 出 来 。 

在 此 需要 顺便 提 及 的 是 ,并非 所 有 的 处 理 需 流水 线 都 会 在 此 级 读 取 操作 数 。 如 在 第 6 章 
中 介绍 数据 相关 性 时 所 介绍 的 , 在 目前 众多 高 性 能 处 理 器 中 ,普遍 采用 在 每 个 运算 单元 前 配 
置 乱 序 发 射 队 列 〈Issue Queue) 的 方式 ， 待 指令 的 相关 性 解除 之 后 从 发 射 队列 中 发 射出 来 时 
读 取 通用 寄存 器 组 ， 然 后 送 给 运算 单元 开始 计算 。 


8.1.2 ”指令 执行 


在 经 典 五 级 流水 线 中 ,“ 译 码 ” 且 将 操作 数 从 通用 寄存 器 组 中 读 取出 来 后 的 下 一 级 流水 
线 是 “执行 ” 顾名思义 ,“ 执 行 ” 便 是 根据 指令 的 具体 操作 类 型 发 射 给 具体 的 运算 单元 进行 
执行 ， 常 见 的 运算 单元 为 以 下 几 种 。 

。 算术 逻辑 运算 单元 (Arithmetic Logical Unit，ALU)， 主 要 负责 普通 逻辑 运算 、 加 减 

法 运算 和 移 位 运算 等 基本 运算 。 

。 整数 乘法 单元 ， 主 要 负责 有 符号 数 或 无 符号 数 整数 的 乘法 运算 。 

。 整数 除法 单元 ， 主 要 负责 有 符号 数 或 无 符号 数 整数 的 除法 运算 。 

e 浮 点 运算 单元 ， 主 要 负责 浮 点 指令 的 运算 。 由 于 浮 点 指令 本 身 种 类 较 多 ， 因 此 浮 点 

运算 单元 本 吴 也 常 分 为 多 个 不 同 的 独立 运算 单元 。 

以 上 为 前 见 的 运算 单元 ， 对 于 包含 特殊 指令 〈 或 者 扩展 指令 ) 的 处 理 器 核 ， 会 相应 地 增 
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加 特殊 的 运算 单元 。 


3.1.3 ”流水 线 的 冲突 


除了 根据 指令 的 具体 类 型 运行 运算 之 外 , 指令 执行 阶段 另外 一 个 最 重要 职能 就 是 维护 并 
解决 流水 线 的 冲突 ， 包括 资源 冲突 和 数据 冲突 (包括 WAW, WAR 和 RAW 等 数据 相关 性 )。 
对 于 流水 线 冲 突 的 基本 概念 和 常见 解决 方法 在 第 6 章 已 经 有 所 介绍 ， 在 此 不 再 闭 述 。 


8.1.4 指令 的 交付 


在 经 典 的 五 级 流水 线 模型 中 ， 处 理 器 的 流水 线 分 为 取 指 、 译 码 、 执 行 、 访 存 和 写 回 ， 其 
中 并 没有 提 及 “交付 ”， 但 指令 的 交付 ‘Commit) 是 处 理 器 微 架构 中 非常 重要 的 一 个 功能 。 
由 于 交付 的 功能 阐述 清楚 需要 较 多 篇 幅 ， 因 此 本 书 单 设 一 章 对 其 进行 详 述 ,请 参见 第 9 章 了 
解 有 关 交 付 的 详细 介绍 。 


8.1.5 ”指令 发 射 、 派 遗 、 执 行 、 写 回 的 顺序 


将 指令 发 射 给 运算 单元 ， 由 运算 单元 进行 执行 ， 然 后 写 回 的 彼此 相对 顺序 ， 也 是 执行 阶 
段 需要 解决 的 重要 问题 ， 此 处 涉及 两 个 概念 。 

e JKË (Dispatch): 可 以 是 按 顺 序 派 遗 ， 也 可 以 是 乱 序 派遣。 

。 AH (Issue): 可 以 是 按 顺 序 发 射 ， 也 可 以 是 乱 序 发 射 。 

对 于 派 遗 和 发 射 ， 由 于 并 没有 在 经 典 的 五 级 流水 线 中 提 及 ， 有 必要 先 解 释 其 概念 。 

(1) 在 处 理 器 设计 中 ， 派 遗 和 发 射 是 两 个 时 常 被 混用 的 定义 。 在 简单 的 处 理 器 中 ， 二 者 往 
往 是 说 的 同一 个 概念 ， 都 是 表示 指令 经 过 译 码 之 后 ， 被 派发 到 不 同 的 运算 单元 执行 的 过 程 ， 
此 派 遗 或 者 发 射 一 般 发 生 在 流水 线 的 执行 阶段 。 

。 根据 每 个 周期 一 次 能 够 发 射 的 指令 个 数 ， 可 以 分 为 “ 单 发 射 ” 和 “多 发 射 ” 处 理 器 。 

“ 单 及 射 ” 是 指 处 理 器 每 个 周期 只 能 发 射 一 条 指令 ;“ 多 发 射 ” 是 指 处 理 器 每 个 周期 
能 够 发 射 多 条 指令 ， 常 见 的 如 “ 双 发 射 ” “三 发 射 ”或 者 “四 发 射 ” 处 理 器 。 

e 注意 : 蜂鸟 E200 处 理 器 核 的 流水 线 中 使 用 “派遣 ”这 个 名 词 作 为 定义 。 

(2) 在 一 些 比较 高 端的 超标 量 处 理 器 核 中 ， 流 水 线 级 数 甚 多 ， 派 遗 和 发 射 便 可 能 有 了 不 
同 的 含义 ， 派 遗 往 往 表示 指令 经 过 译 码 之 后 被 派发 到 不 同 的 运算 单元 的 等 待 队列 中 的 过 程 ， 
而 发 射 往往 表示 指令 从 运算 单元 的 等 待 队 列 中 (解决 了 数据 依赖 性 之 后 ) 发 射 到 运算 单元 开 
始 执行 的 过 程 。 

处 理 器 中 发 射 、 派 遗 、 执 行 和 写 回 的 顺序 是 处 理 器 微 架 构 设 计 中 非常 重要 的 一 环 ， 根 据 
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顺序 的 不 同 ， 可 以 分 为 很 多 种 流派 ， 简 述 如 下 。 
(1) 顺序 发 射 ， 顺 序 执行 ， 顺 序 写 回 。 
。 这 种 策略 往往 出 现在 使 用 最 简单 流水 线 的 处 理 器 核 中 ， 璧 如 经 典 的 五 级 流水 线 ， 指 
令 按 顺 序 发 射 、 在 运算 单元 中 执行 和 写 回 Regfile. 
e 这 种 策略 是 性 能 比较 低 的 做 法 ， 硬 件 实现 最 简单 ， 面 积 最 小 。 
(2) 顺序 发 射 ， 乱 序 执 行 ， 顺 序 写 回 。 
e 由 于 不 同 的 指令 类 型 往往 需要 不 同 的 运算 单元 执行 周期 ， 璧 如 除法 指令 往往 要 耗费 
几 十 个 周期 ， 而 最 简单 的 逻辑 运算 仅 需 要 一 个 周期 便 可 由 ALU 计算 出 来 , 因此 如 果 
一 味 地 进行 顺序 执行 ， 则 性 能 太 差 。 

。 乱 序 执行 便 是 指 在 指令 的 执行 阶段 可 以 由 不 同 的 运算 单元 同时 执行 不 同 的 指令 ， 璧 
如 在 除法 器 执行 除法 指令 期 间 ，ALU 也 可 以 执行 其 他 指令 ， 从 而 提高 性 能 。 

。 但 是 在 最 终 的 写 回 阶段 仍然 要 严格 地 按 顺 序 写 回 ， 因 此 很 多 时 候 运 算 单 元 要 等 待 其 
他 的 指令 先 写 回 而 将 其 运算 单元 本 身 的 流水 线 停滞 。 

(3) 顺序 发 射 ， 乱 序 执行 ， 乱 序 写 回 。 

e 在 上 述 乱 序 执行 的 基础 上 , 如 果 能 够 让 运算 单元 也 乱 序 地 写 回 , 则 可 以 进一步 提高 
性 能 。 

。 运行 单元 的 乱 序 写 回 方式 可 谓 门类 繁多 ， 可 以 分 为 很 多 种 不 同 的 实现 ， 举 例如 下 。 

有 的 处 理 器 会 配备 重 排 序 缓存 (Re-Order Buffer; ROB), 因此 运算 单元 一 旦 执行 完毕 后 ， 
结果 就 将 写 回 ROB， 而 非 直 接 写 回 Regfile， 最 后 由 ROB 按 顺 序 写 回 Regfile。 这 是 一 种 典 
型 的 乱 序 写 回 实现 ， 性 能 很 好 ， 不 过 这 种 方案 也 存在 着 ROB 往往 因 面 积 过 大 、 数 据 被 腾挪 
写 回 两 次 〔( 先 从 运算 单元 到 ROB， 再 从 ROB 到 Regfile) 而 增加 动态 功 耗 的 问题 。 

有 的 处 理 器 并 不 使 用 ROB, 而 是 使 用 统一 的 物理 寄存 器 组 (Physical Register File) 实现 。 
由 一 个 统一 的 物理 寄存 器 组 动态 地 管理 逻辑 寄存 器 组 的 映射 关系 ， 运 算 单 元 一 旦 执行 完毕 
后 ， 就 将 结果 乱 序 地 写 回 物理 寄存 器 组 中 。 此 方法 相 比 上 述 ROB 方法 而 言 数据 只 被 腾挪 一 
次 ， 因 此 更 加 省 电 ， 不 过 控制 也 相对 更 加 复杂 。 

有 的 处 理 器 既 没 有 ROB， 也 没有 统一 的 物理 寄存 器 组 ， 但 是 仍然 支持 乱 序 写 回 。 各 个 
运算 单元 一 旦 执行 完毕 后 ， 如 果 它 和 其 他 运算 单元 中 的 指令 没有 数据 相关 性 , 便 可 直接 写 回 
Regfile. 

。 5L 5 [BR n] EUR TR BLZ UBI, ARS DR T CE EG APUD ER. 

(4) 顺序 派遣 ， 乱 序 发 射 ， 乱 序 执行 ， 乱 序 写 回 。 

。 这 种 区 分 了 派 遗 和 发 射 功能 的 处 理 器 往往 属于 高 性 能 的 超标 量 处 理 器 。 如 上 文 所 述 ， 

在 这 种 超标 量 处 理 器 中 ， 指 令 经 过 译 码 后 被 顺序 地 派遣 到 不 同 运算 单元 的 等 竺 队列 
中 ， 在 等 待 队 列 中 可 以 有 多 条 指令 等 待 ， 待 哪 一 条 指令 先 解决 了 数据 依赖 性 后 便 可 
被 先 发 射 到 运算 单元 中 开始 执行 ， 因 此 其 发 射 是 乱 序 的 。 
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。 这 种 高 性 能 处 理 器 往往 也 会 配备 ROB 或 者 统一 的 物理 寄存 器 组 , 因此 运算 单元 的 乱 
序 执行 和 乱 序 写 回 可 谓 小 羔 一 碟 。 


8.1.06 ”分 文 解析 


在 第 7 章 曾经 论述 了 在 取 指 阶段 的 分 支 预测 功能 ， 对 于 融 条 件 分 文 指令 ， 由 于 其 条 件 的 
解析 需要 进行 操作 数 运算 〈 辟 如 大 小 比较 操作 )， 流 水 线 在 取 指 阶段 无 法 得 知 该 指令 的 条 件 
跳 转 结果 是 跳 还 是 不 跳 ， 只 能 进行 预测 。 

因此 在 执行 阶段 , 通常 需要 使 用 ALU 对 该 指令 进行 条 件 判断 运算 (譬如 大 小 比较 操作 )。 
ALU 进行 条 件 判 断 运 算 的 结果 将 用 于 解析 该 分 文 指令 是 否 真 的 需要 跳 转 ， 并 且 和 之 前 预测 
的 跳 转 结果 进行 比 对 。 如 果真 实 的 结果 和 预测 的 结果 不 一 致 ， 则 意味 着 之 前 的 预测 错误 ， 
需要 进行 流水 线 冲 刷 (Pipeline Flush)， 将 预测 取 指 (Speculative Fetch) 所 取 的 指令 都 舍弃 
H, 重新 按照 真实 的 跳 转 方向 进行 取 指 。 在 经 典 MIPS 五 级 流水 线 中 的 分 支 解析 过 程 如 图 6-1 
Bram. 

由 于 分 文 预测 错误 造成 的 流水 线 冲 刷 会 造成 性 能 损失 。 流 水 线 级 数 越 深 ， 流水 线 冲刷 造 
成 的 性 能 损失 越 大 。 因 此 理论 上 来 讲 ， 分 文 解 析 如 果 能 够 发 生 在 比较 靠 前 端 ( 取 指 ) 的 流水 
线 级 数位 置 ， 则 相对 而 言 其 带 来 的 流水 线 冲 刷 的 性 能 损失 会 相对 小 一 些 ; 反之 ， 如 果 比 较 靠 
后 ， 那 造成 的 性 能 损失 就 会 相对 大 一 些 。 如 何在 功能 正确 且 时 序 能 够 满足 的 情况 下 ， 尽 量 在 
比较 靠 前 端的 流水 线 位 置 进行 分 文 解 析 ， 是 处 理 器 微 架 构 设 计 经 党 需要 考虑 的 问题 。 


8.1.7 h% 


指令 执行 阶段 的 概念 相对 比较 简单 、 容 易 理 解 ， 但 是 执行 阶段 不 能 够 被 孤立 地 看 符 为 简 
单 的 一 扒 运 算 单 元 。 执 行 阶 段 处 于 衔接 前 端 取 指 和 后 站 写 回 的 中 枢 位 置 ， 是 决定 处 理 器 性 能 
高 低 的 主要 部 分 。 尤 其 是 在 高 性 能 的 处 理 嚣 中， 执行 阶段 是 整个 动态 调度 (如 第 6 章 中 介绍 
过 的 解决 数据 相关 性 的 方法 ) 的 核心 部 分 ， 因此 应 该 将 执行 阶段 的 功能 与 整体 流水 线 微 染 构 
综合 在 一 起 进行 理解 。 


8.2 :EomA 架构 特点 对 于 执行 的 简化 
上 一 节 讨 论 了 处 理 器 执行 (包括 译 码 ) 的 相关 背景 和 技术 ， 可 以 说 执行 是 处 理 器 微 架 构 


的 中 枢 核 心 阶 段 。 在 第 2 章 中 曾经 总 结 性 地 探讨 过 RISC-V 架构 追求 简化 硬件 的 哲学 ， 具 体 
对 于 执行 〈 包 括 译 码 ) 而 言 ，RISC-V 架构 的 如 下 特点 可 以 大 幅 简 化 其 硬件 实现 。 
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e 规整 的 指令 编码 格式 。 
。 优雅 的 16 位 指令 。 

。 精简 的 指令 个 数 。 

。 整数 指令 都 是 两 操作 数 。 
下 文 分 别 予 以 论述 。 


8.2.1 规整 的 指令 编码 格式 


得 荔 于 后 发 优势 和 总 结 了 多 年 来 处 理 器 发 展 的 教训 ，RISC-V 的 指令 集 编 码 非常 规整 ， 
指令 所 需 的 通用 寄存 器 的 索引 〈Index) 都 被 放 在 固定 的 位 置 。 因 此 指令 译 码 器 CInstruction 
Decoder) 可 以 非常 便捷 地 译 码 出 寄存 器 索引 ， 然 后 从 通用 寄存 器 组 中 读 取 出 操作 数 ， 同 样 
也 可 以 很 容易 地 译 码 出 指令 的 类 型 和 具体 信息 。 


82.2 ”优雅 的 16 位 指令 


RISC-V 架构 为 了 提高 代码 密度 ， 而 定义 了 一 种 可 选 的 压缩 (Compressed) 指令 子 集 ， 
由 字母 C 表示 。RISC-V 架构 的 一 个 精妙 之 处 在 于 每 一 条 16 位 长 的 指令 都 能 找到 一 一 对 应 
的 原始 32 位 指令 。 因此 译 码 逻辑 可 以 利用 此 特点 将 16 位 指令 展开 成 为 其 对 应 的 32 位 指令 ， 
从 而 使 得 流水 线 后 续 部 分 看 到 的 都 是 统一 的 32 位 指令 , 执行 阶段 无 须 区 分 指令 是 16 位 指令 
还 是 32 位 指令 。 


8.2.3 精 向 的 指令 个 数 


RISC-V 染 构 的 指令 集 数目 非常 简洁 ， 基 本 的 RISC-V 指令 数目 仅 有 40 多 条 ， 加 上 其 他 
的 模块 化 扩展 指令 总 共 几 十 条 指令 。 指 令 数 目 精 简 也 就 意味 着 只 需 处 理 更 少 的 情形 ,简化 执 
行 阶段 的 硬件 设计 负担 。 

关于 蜂鸟 E200 系列 支持 的 RISC-V 指令 列表 ， 详 见 附录 A。 


8.2.4 整数 指令 都 是 两 操作 数 


RISC-V 的 整数 指令 的 操作 数 个 数 均 是 规整 的 1 操作 数 或 者 2 操作 数 指令 ， 没 有 3 操作 
数 指令 ， 这 样 可 以 简化 操作 数 读 取 和 数据 相关 性 检测 部 分 的 硬件 设计 。 
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8.3 EENMNL EI ET I 


如 第 6 章 所 介绍 ， 蜂 鸟 E200 是 两 级 流水 线 架构 ， 其 “ 译 码 ”“ 执 行 "“ 交 付 ” 和 “ 写 回 ” 
功能 均 处 于 流水 线 的 第 二 级 ， 由 EXU 单元 完成 ， 如 图 8-1 所 示 。 














[c NI | 
bil 


图 8-1 蜂鸟 E200 流水线 中 的 EXU 单元 


8.3.1 执行 指令 列表 


蜂鸟 E200 系列 支持 的 所 有 RISC-V 指令 集 均 需 由 EXU 进行 译 码 、 派 遗 和 写 回 。 
关于 蜂鸟 E200 系列 支持 的 RISC-V 指令 列表 ， 详 见 附 录 A。 


8.3.2 EXU 总 体 设计 思 


i E, E200 的 EXU 单元 微 架构 如 图 8-2 所 示 ， 其 主要 功能 包括 以 下 情况 。 

。 将 IFU 通过 IR 寄存 器 发 送 给 EXU 的 指令 进行 译 码 和 派 遗 (如 图 8-2 中 的 “ 译 码 与 
IKE”). 

。 通过 译 码 出 的 操作 数 寄存 器 索引 (Index) HX Regfile (如 图 8-2 中 的 RD-Regfile). 

。 维护 指令 的 数据 相关 性 〈 如 图 8-2 中 的 OITF )。 

。 将 指令 派 起 (Dispatch) 给 不 同 的 运算 单元 执行 (如 图 8-2 中 的 ALU、Long-Pipes、 
LSU 以 及 EAD. 

。 将 指令 交付 (如 图 8-2 中 的 交付 )。 

e 将 指令 运算 的 结果 写 回 Regfile (如 图 8-2 中 的 WB Arb). 
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8.3.3 


(— AP:ZK£EHÉoK 











图 8-2 15 E200 处 理 器 核 EXU 微 架 构 示 意图 
下 文 对 EXU 的 不 同 子 模 块 分 别 予 以 论述 。 


VERS 


EA (Decode) 模块 主要 用 于 对 IR 寄存 器 中 的 指令 进行 译 码 ， 要 点 如 下 。 
e 译 码 的 相关 源 代 码 在 e200 opensource 目录 的 结构 如 下 。 关 于 GitHub 网 站 上 
e200 opensource 开源 项 目的 完整 代码 层次 结构 详解 ， 请 参见 第 17.1 节 。 


e200 opensource 


|-—--rt1 // 存放 RTL 的 目录 
|----e203 // E203 ifl Soc 的 RTL 目录 
| ----core // 存放 e203 Core I] RTL 代码 
|----e203 exu decode.v // Decode 模块 
。 详 码 模块 完全 由 组 合 远 辑 组 成 。 其 主要 逻辑 即 根据 RISC-V 指令 的 编码 规则 进行 译 
码 ， 产 生 不 同 的 指令 类 型 信息 ， 操 作 数 寄存 器 索引 等 。 相 关 源 代码 片段 如 下 所 示 。 


// e203 exu decode.v 源 代码 片段 
module e203 exu decode( 


EEA EI TIFPIIEFEIFIFKTETAETEIVTAETIETYAIETIJNTEIPTITAITTATTTP YT TY. 
// The IR stage to Decoder 


| // 以 下 为 来 


input 
input 
input 
input 
input 
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自 IFU 输入 EXU Decode 模块 的 信号 

['E203 INSTR SIZE-1:0] i instr, // RAF Iru 的 32 位 指令 
['E203 PC SIZE-1:0] i pc, // 来 自 于 IFU 的 当前 指令 对 应 PC 值 
i prdt taken, 

i misalgn, // 表明 当前 指令 遭遇 了 取 指 非 对 齐 异常 

i buserr, / /表明 当 前 指令 遭遇 了 取 指 存储 器 访问 错误 


MIEL PP MAI MMPPIMMIEIMEPICMB OVV IEEE IMP MP MP MB MM MP Bg gMgaEVLI P MP MP MM MOULE LL gFM 


// The 


Decoded Info-Bus 


// 以 下 为 对 指令 进行 译 码 得 到 的 信息 


output 
output 
output 
output 
output 
output 
output 
output 
output 





output 
output 





dec_rslx0，// 该 指令 源 操作 数 1 的 寄存 器 索引 为 x0 

dec_rs2x0，// 该 指令 源 操作 数 2 的 寄存 器 索引 为 x0 

dec_rslen，// 该 指令 需要 读 取 源 操作 数 1 

dec_rs2en，// 该 指令 需要 读 取 源 操作 数 2 

dec_rdwen，// 该 指令 需要 写 结果 操作 数 

['E203 RFIDX WIDTH-1:0] dec rslidx,// 该 指令 源 操作 数 1 的 寄存 器 索引 

['E203 RFIDX WIDTH-1:0] dec rs2idx,// 该 指令 源 操作 数 2 的 寄存 器 索引 

['E203 RFIDX WIDTH-1:0] dec rdidx，// 该 指令 结果 寄存 器 索引 

['E203 DECINFO WIDTH-1:0] dec info,// 该 指令 的 其 他 信息 ， 将 其 打包 成 为 一 组 
// 宽 信号 ， 称 之 为 信息 总 线 (info bus) 

['E203 XLEN-1:0] dec imm, // 该 指令 使 用 的 立即 数 的 值 


dec_ilegl，// 经 过 译 码 后 ， 发 现 本 指令 是 个 非法 指令 


// 以 下 为 译 码 器 的 部 分 关键 代码 解析 以 方便 读者 理解 。 


| ”对 于 32 位 指令 的 译 码 比较 直接 ， 因 为 指令 编码 比较 规整 。 而 对 于 16 位 指令 的 译 码 相对 比较 复杂 ， 因 为 


指令 编码 没有 32 位 指令 规整 
| 
// 该 指令 为 32 位 指令 还 是 16 位 指令 的 指示 信号 
wire rv32 = (~( instr[4:2] == 3'b111)) & opcode 1 0 11; 
// 取 出 32 位 指令 的 关键 编码 段 
wire [4:0] rv32 rd = rv32 instr[11:7];//32 位 指令 的 结果 操作 数 索 引 
wire [2:0] rv32 func3 = rv32 instr[14:12];//32 位 指令 的 func3 段 
wire [4:0] rv32 rs1 = rv32 instr[19:15]; //32 位 指令 的 源 操作 数 1 索引 
wire [4:0] rv32 rs2 = rv32 instr[24:20]; //32 位 指令 的 源 操作 数 2 索引 
wire [6:0] rv32 func7 = rv32 instr[31:25]; //32 位 指令 的 func7 ft 





// 同 理 ， 取 出 16 位 指令 的 关键 编码 段 


wire [4 
wire [4 
wire [4 


wire [4 


:0] rvl16 rd 
:0] rvl6 rsl 
:0] rvl16 rs2 


rv32 rd; 
rvl6 rd; 
rv32 instr[6:2]; 


:0] rvl16 rdd 


(2'bO01,rv32 instr[4:2]); 
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wire [4:0] rvl16 rssl (2'b01,rv32 instr[9:7]); 
wire [4:0] rvl16 rss2 = rv16 rad; 


wire [2:0] rv16 func3 rv32 instr[15:13]; 


/7 以 下 为 对 32 位 指令 的 指令 类 型 译 码 


wire rv32 load = opcode 6 5 00 & opcode 4 2 000 & opcode 1 0 11; 
wire rv32 store = opcode 6 5 01 & opcode 4 2 000 & opcode 1 0 11; 
wire rv32 madd = opcode 6 5 10 & opcode 4 2 000 & opcode 1 0 11; 
wire rv32 branch = opcode 6 5 11 & opcode 4 2 000 & opcode 1 0 11; 


wire rv32 load fp - opcode 6 5 00 & opcode 4 2 001 & opcode 1 0 11; 
wire rv32 store fp = opcode 6 5 01 & opcode 4 2 001 & opcode 1 0 11; 


// 同 理 ， 以 下 为 对 16 位 指令 的 指令 类 型 译 码 


wire rvl6 addi4spn = opcode 1 0 00 & rv16 func3 000;// 
wire rvl6 lw = opcode 1 0 00 & rv16 func3 010;// 
wire rvl6 sw = opcode 1 0 00 & rv16 func3 110;// 


wire rv16 addi opcode 1 0 01 & rvl6 func3 000;// 
wire rv16 jal opcode 1 0 01 & rvl16 func3 001;// 
wire rvl6 li = opcode 1 0 01 & rvl16 func3 010;// 


wire rvl6 swsp = opcode 1 0 10 & rvl6 func3 110;// 


/ /*k fk BJP 单元 所 需 的 信息 总 线 (Info Bus) . BIP 单元 是 ALU 的 一 个 子 单元 ， 参 见 第 8.3.8 节 对 
ALU 的 详细 介绍 。 
wire bjp op - dec bjp | rv32 mret | (rv32 dret & (-rv32 dret ilgl)) | rv3 
2 fence fencei; 


wire ['E203 DECINFO BJP WIDTH-1:0] bjp info bus; 


assign bjp info bus['E203 DECINFO GRP ] = 'E203 DECINFO GRP BJP; 
assign bjp info bus['E203 DECINFO RV32 ] = rv32; 

assign bjp info bus['E203 DECINFO BJP. JUMP ] = dec Jal | dec jalr; 
assign bjp info bus['E203 DECINFO BJP BPRDT] = i prdt taken; 

assign bjp info bus['E203 DECINFO BJP BEQ ] = rv32 beq | rvl16 beqgz; 
assign bjp info bus['E203 DECINFO BJP BNE ] = rv32 bne | rvl6 bnez; 


//*EFk Regular ALU 单元 所 需 的 信息 总 线 Info Bus). Regular ALU 单元 为 ALU 的 一 个 子 单元 ， 
参见 第 8.3.8 节 对 ALU 的 详细 介绍 。 
wire alu op = (-rv32 sxxi Shamt ilgl) & (-rvl6 sxxi shamt ilgl) 
wire need imm; 
wire ['E203 DECINFO ALU WIDTH-1:0] alu info bus; 


assign alu info bus['E203 DECINFO GRP ] - 'E203 DECINFO GRP ALU; 
assign alu info bus['E203 DECINFO RV32 ] = rv32; 
assign alu info bus['E203 DECINFO ALU SUB] = rv32 sub | rvl16 sub; 


assign alu info bus['E203 DECINFO ALU SLT] rv32 slt | rv32 slti; 
assign alu info bus['E203 DECINFO ALU SLTU] = rv32 sltu | rv32 sltiu; 
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// 生 成 CSR 单元 所 需 的 信息 总 线 (Info Bus) . CSR 单元 为 ALU 的 一 个 子音 元， 参见 第 8.3.8 节 对 
ALU 的 详细 介绍 。 
wire csr op = rv32 csr; 
wire ['E203 DECINFO CSR WIDTH-1:0] csr info bus; 


assign csr info bus['E203 DECINFO GRP ] = 'E203 DECINFO GRP CSR; 
assign csr info bus['E203 DECINFO RV32 ] - rv32; 

assign csr info bus['E203 DECINFO CSR CSRRW ] = rv32 csrrw | rv32 csrrwi; 
assign csr info bus['E203 DECINFO CSR CSRRS ] - rv32 csrrs | rv32 csrrsi; 
assign csr info bus['E203 DECINFO CSR CSRRC ] = rv32 csrrc | rv32 csrrci; 


assign csr info bus['E203 DECINFO CSR RSI1IMM] = rv32 csrrwi | rv32 csrrsi 
| rv32 csrrci; 

assign csr info bus['E203 DECINFO CSR ZIMMM ] - rv32 rsi; 

assign csr info bus['E203 DECINFO CSR RSI1ISO] rv32 rsl x0; 

assign csr info bus['E203 DECINFO CSR CSRIDX] = rv32 instr[31:20]; 


// 生 成 乘除 法 单元 所 需 的 信息 总 线 (Info Bus), $7198 8.3.8 节 对 ALU 的 详细 介绍 。 
wire muldiv op = rv32 op & rv32 func7 0000001; 


wire ['E203 DECINFO MULDIV WIDTH-1:0] muldiv info bus; 


assign muldiv info bus['E203 DECINFO GRP ] = 'E203 DECINFO GRP MULDIV; 
assign muldiv info bus['E203 DECINFO RV32 ] = rv32 ; 
assign muldiv info bus['E203 DECINFO MULDIV MUL ] = rv32 mul ; 
assign muldiv info bus['E203 DECINFO MULDIV_MULH ] = rv32 mulh ; 


assign muldiv info bus['E203 DECINFO MULDIV MULHSU] 
assign muldiv info bus['E203 DECINFO MULDIV MULHU ] 


rv32 mulhsu ; 
rv32 mulhu ; 


// 生 成 AGU 单元 所 需 的 信息 总 线 (Info Bus).AGU 单元 是 ALU 的 一 个 子 单元 , 用 于 处 理 AMO 和 Load, 
Store 指令 ， 参 见 第 8.3.8 节 对 ALU 的 详细 介绍 。 
wire amoldst op = rv32 amo | rv32 load | rv32 store | rvl16 lw | rvl16 sw 
| (rvi6 lwsp & (-rvl6 lwsp ilgl)) | rv16 swsp; 


wire ['E203 DECINFO AGU WIDTH-1:0] agu info bus; 


assign agu info bus['E203 DECINFO GRP ] = 'E203 DECINFO GRP AGU; 

assign agu info bus['E203 DECINFO RV32 ] = rv32; 

assign agu info bus['E203 DECINFO AGU LOAD ] = rv32 load | rv32 lr w | 
rvl6 lw | rvl6 lwsp; 

assign agu info bus['E203 DECINFO AGU STORE ] = rv32 store | rv32 soc w | 


rvl6 sw | rvl6 swsp; 
assign agu info bus['E203 DECINFO AGU SIZE 
assign agu info bus['E203 DECINFO AGU USIGN lsu info usign; 
assign agu info bus['E203 DECINFO AGU EXCL rv32 lr w | rv32 sc w; 
assign agu info bus['E203 DECINFO AGU AMO ] = rv32 amo & (-(rv32 lr W 
| rv32 sc w));// We seperated the EXCL out of AMO in LSU handling 
assign agu info bus['E203 DECINFO AGU AMOSWAP] = rv32 amoswap w; 
assign agu info bus['E203 DECINFO AGU AMOADD ] rv32 amoadd w ; 
assign agu info bus['E203 DECINFO AGU AMOAND ] = rv32 amoand w ; 


= lsu info size; 


I 
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// 以 下 逻辑 是 典型 的 5 输入 并 行 多 路 选择 器 (使 用 Verilog assign 语法 编码 And-Or 逻辑 ) ， 选 择 
信号 是 指令 类 型 信号 〈 警 如 alu_op，bjp_op 等 ) ， 从 而 根据 不 同 的 指令 分 组 ， 将 它们 的 信息 总 线 经 过 并 行 
多 路 选择 的 方式 复 用 到 一 个 统一 的 输出 信号 dec info 上 。 

assign dec info = 
(('E203 DECINFO WIDTH(alu op}} & (('E203 DECINFO WIDTH-'E20 
3 DECINFO ALU WIDTH(1'b0)),alu info bus}) 
| (('E203 DECINFO WIDTH(amoldst op}} & (('E203 DECINFO WIDTH-'E20 
3 DECINFO AGU WIDTH(1'b0]),agu info bus]) 


| (('E203 DECINFO WIDTH(bjp op!) & (('E203 DECINFO WIDTH-'E20 
3 DECINFO BJP WIDTH(1'b0)),bjp info bus)) 
| (('E203 DECINFO WIDTH{csr op}) & (('E203 DECINFO WIDTH-'E20 


3 DECINFO CSR WIDTH(1'b0]),csr info bus]) 
| (('E203 DECINFO WIDTH(muldiv op)) & (('E203 DECINFO WIDTH-'E20 
3 DECINFO CSR WIDTH(1'b0)),muldiv info bus)) 


. 
r 


// 以 下 译 码 是 否 需要 读 取 寄 存 器 操作 数 1， 寡 存 器 操作 数 2， 是 否 需要 写 结果 寄存 器 


// All the RV32IMR need RD register except the 
/ / * Branch, Store, 
//  * fence, fence i 
//  * ecall, ebreak 
wire rv32 need rd - 
(-rv32 rd x0) & ( 
( 
(~rv32 branch) & (-rv32 store) 
& (-rv32 fence fencei) 
& (~IV32 ecall ebreak ret wfi) 
) 
); 


z 
Pp. 
h 
(0 
B 
< 
UJ 
x 
J 
(D 
(D 
jp» 
K 
U 
IP 
| 


z 
b 
H 
mn 
h 
< 
CJ 
^n 
- 
(D 
(D 
m 
K 
[6 
ho 
Il 


(*rv32 rs2 x0) & ( 


// 以 下 译 码 出 指令 的 立即 数 ， 不 同 的 指令 类 型 有 不 同 的 立即 数 编码 形式 需要 译 码 。 
// 首 先 译 码 32 位 指令 的 不 同 立即 数 格式 


wire [31:0] rv32 i imm = 1 
(20(rv32 instr[31]]) 
¿è rv32 instr[31:20] 
); 
wire [31:0] rv32 s imm = ( 


LILLLIU 


wire [31:0] rv32 b imm = I 
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wire [31:0] rv32 u imm = ( 


wire [31:0] rv32 j imm = 1 


// 其 次 译 码 16 位 指令 的 不 同 立即 数 格式 


wire rvl6 imm sel cis = rvl6 lwsp; 
wire [31:0] rvl16 cis imm ={ 

24'b0 

rvl6 instr[3:2] 
rvl6 instr[12] 
rvl6 instr[6:4] 
2'b0 

}; 


^ - - - 


"n 


wire [31:0] rvl16 cis d imm -( 


wire [31:0] rv16 cili imm ={ 


wire [31:0] rvl16 cilui imm ={ 


wire [31:0] rvl16 cil6sp imm ={ 


tetere 


// 以 下 逻辑 是 典型 的 5 输入 并 行 多 路 选择 器 (使 用 Verilog assign 语法 编码 and-or 有 逻辑) ， 根 据 
不 同 的 32 位 立即 数 类 型 ， 选 择 生 成 32 位 指令 最 终 的 立即 数 。 


wire [31:0] rv32 imm = 
((32(rv32 imm sel i]) 
| ((32[rv32 imm sel s]) 
| (132([rv32 imm sel b}} 
| ((32(rv32 imm sel u]) 
| 


rv32 i imm) 
rv32 s imm) 
rv32 b imm) 
rv32 u imm) 
rv32 j imm) 


mmm m m 


((32(rv32 imm sel j]) 


, 


// 以 下 逻辑 是 典型 的 10 输入 并 行 多 路 选择 器 (使 用 Verilog assign 语法 编码 and-or 逻辑 ) ， 根 
据 不 同 的 16 位 立即 数 类 型 ， 选 择 生 成 16 位 指令 最 终 的 立即 数 。 


wire [31:0] rvl16 imm = 


((32(rvl16 imm sel cis )) & rvl6 cis imm) 
| ((32(rvl16 imm sel cili )) & rvl16 cili imm) 
| ((32(rvl16 imm sel cilui }} & rvl16 cilui imm) 
| ((32(rvl6 imm sel cil6sp)) & rvl16 cil6sp imm) 
| ((32[(rvl6 imm sel css }} & rvl6 css imm) 
| ((32í[rvl6 imm sel ciw )) & rvl6 ciw imm) 
| (132(rvl6 imm sel cl }} & rvl6 cl imm) 
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| ((32(rvl6 imm sel cs )) & rvl6 cs imm) 
| ((32í[rvl6 imm sel cb }} & rvl6 cb imm) 
| ((32(rv16 imm sel cj )) & rvl6 cj imm) 


. 
[4 


/ /根据 指令 是 16 位 还 是 32 位 宽度 ， 选 择 生成 最 终 的 立即 数 


assign dec imm = rv32 ? rv32 imm : rvl16 imm; 


/ /根据 指令 是 16 位 还 是 32 位 宽度 ， 选 择 生成 最 终 的 操作 数 寄 存 器 索引 
assign dec rslidx = rv32 ? rv32 rs1['E203 RFIDX WIDTH-1:0] : rv16 rslidx; 
assign dec rs2idx = rv32 ? rv32 rs2['E203 RFIDX WIDTH-1:0] : rv16 rs2idx; 
assign dec rdidx = rv32 ? rv32 rd ['E203 RFIDX WIDTH-1:0] : rv16 rdidx ; 


// 译 码 出 不 同 的 非法 指令 情形 
assign dec ilegl = 
(rv allO0sls ilgl) 

| (rv index ilgl) 
| (rvi6 addiló6sp ilgl) 
| (rvi6 addi4spn ilgl) 
| (rvl6 li lui ilgl) 
| (rvi6 sxxi shamt ilgl) 
| (rv32 sxxi shamt ilgl) 
| (rv32 dret ilgl) 
| (rvi6 lwsp ilgl) 
| (^legl ops); 


8.3.4 整 效 通用 宥 存 器 组 


整数 通用 寄存 器 组 (nteger Register File， 简 称 Integer-Regfile) 模块 主要 用 于 实现 RISC-V 
架构 定义 的 整数 通用 寄存 器 组 。 请 参见 附录 
A4.1 节 了 解 有 关 RISC-V 架构 通用 寄存 器 组 的 
信息 。 

RISC-V 的 整数 指令 都 是 单 操作 数 或 者 两 
操作 数 指令 ， 且 蜂鸟 E200 属于 单 发 射 〈 一 次 
发 射 派 遗 一 条 指令 ) 的 微 架 构 ， 因 此 Integer- 
Regfile 模块 只 需要 支持 最 多 两 个 读 端 口 。 同 
时 ， 蜂 鸟 E200 的 写 回 策略 是 按 顺 序 每 次 写 
回 一 条 指令 的 微 架 构 ， 因 此 Integer-Regfile 
TRER Hm SERE 7 m. 

基于 以 上 要 点 ， 蜂 乌 E200 的 Integer- 
Regfile 模块 微 架构 如 图 8-3 所 示 ， 要 点 如 下 。 图 8-3 ”蜂鸟 E200 处 理 器 核 Integer-Regfile 微 架构 图 

e Integer-Regfile 的 相关 源 代码 在 e200 opensource 目录 的 结构 如 下 。 关 于 GitHub 网 站 

上 e200_opensource 开源 项 目的 完整 代码 层次 结构 详解 ， 请 参见 第 17.1 7B. 
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e200 opensource 


|----rtl // 存放 RTL 的 目录 
|----e203 // E203 核 和 Soc BJ RTL 目录 
|----core // 存放 e203 Core 的 RTL 代码 
|----e203 exu regfile.v // Integer Regfile 模块 

e 如 图 8-3 Hr, Integer-Regfile 的 写 端口 逻辑 将 输入 的 结果 寄存 器 索引 和 各 自 的 寄存 
器 号 进行 比较 ， 产 生 写 使 能 信号 ， 被 使 能 的 通用 寄存 器 即将 写 数据 写 入 寄存 器 (x0 
由 于 是 常数 ， 因 此 无 须 写 入 )。 

e Integer-Regfile 的 每 个 读 端口 都 是 一 个 纯粹 的 并 行 多 路 选择 器 ， 多 路 选择 器 的 选择 信 
号 即 读 操作 数 的 寄存 器 索引 。 为 了 减少 功 耗 ， 读 端口 的 寄存 器 索引 信号 〈 用 于 并 行 
多 路 选择 器 的 选择 信号 ) 被 专用 的 寄存 器 进行 寄存 ， 只 有 在 执行 需要 读 操 作 数 的 指 
令 时 才 会 被 加 载 (否则 保持 不 变 )， 从 而 减少 读 端 口 的 动态 翻转 功 耗 。 请 参见 第 IS 
章 了 解 更 多 低 功 耗 设计 的 诀窍 。 

e Integer-Regfile 有 两 个 可 配置 选项 ， 可 以 通过 config.v 中 的 宏 进行 配置 。 
通用 寄存 器 的 个 数 可 以 由 宏 E203 CFG REGNUM IS 32 8# E203 CFG REGNUM IS_ 
16 进行 制定 为 32 个 〈 即 为 RV32I 架构 ) 或 者 16 个 〈 即 为 RV32E 架构 )。 
通用 寄存 器 可 以 用 锁 存 器 (Latch) 实现， 可 以 由 宏 E203 CFG REGFILE LATCH 
BASED 进行 配置 。 如 果 没 有 定义 此 宏 ， 通 用 寄存 器 则 由 了 D Flip-Flops (DFF) 实现 。 
使 用 锁 存 器 能 够 显著 地 减少 Integer-Regfile 的 面积 和 功 耗 ， 但 是 也 会 给 ASIC 流程 带 
来 某 些 困难 ， 用 户 可 以 自行 选择 是 否 使 用 。 

。 config.v 文件 在 e200_opensource 目录 的 结构 如 下 。 请 参见 第 4.6 节 了 解 更 多 蜂鸟 E200 


的 可 配置 信息 。 
e200 opensource 
|----rtl // 存放 RTL 的 目录 
| ----e203 // E203 核 和 Soc 的 RTL 目录 


|----core // 存放 core 相关 模块 的 RTL 代码 
|----config.v // 设 定 配 置 的 源 文件 


。 Integer-Regfile 模块 的 相关 源 代码 片段 如 下 所 示 。 


// e203 exu regfile.v 源 代 码 片 段 


// 使 用 二 维 数组 定义 通用 寄存 器 组 
wire ['E203 XLEN-1:0] rf r ['E203 RFREG NUM-1:0]; 
wire ['E203 RFREG NUM-1:0] rf wen; 


'ifdef E203 REGFILE LATCH BASED //{ 
/ /如果 使 用 锁 存 器 实现 通用 寄存 器 。 则 需要 将 写 端口 使 用 DFF 专门 寄存 一 拍 ， 此 举 能 够 防止 锁 存 器 带 来 
的 写 端 口 至 读 端 口 之 间 的 锁 存 器 穿 通 效 应 。 


// Use DFF to buffer the write-port 
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wire ['E203 XLEN-1:0] wbck dest dat r; 

sirv gnrl dffl $('E203 XLEN) wbck dat dffl (wbck dest wen, wbck de 
st dat, wbck dest dat r, clk); 

wire ['E203 RFREG NUM-1:0] clk rf ltch; 

'endif//) 


genvar i; 


generate //{// 通 过 使 用 参数 化 的 generate 语法 生成 Regfile 的 逻辑 
for (i20; i«'E203 RFREG NUM; i-i-*1) begin:regfile//i( 


if (i==0) begin: rf0 
//x0 是 一 个 常数 0， 因 此 无 须 产生 写 逻 辑 。 
// x0 cannot be wrote since it is constant-zeros 
assign rf wen[i] = 1'5b0; 
assign rf r[i] = 'E203 XLEN'b0; 
'ifdef E203 REGFILE LATCH BASED / / ( 
assign olk rf ltch[i] = 1'b0; 
'endif//) 
end 
else begin: rfnoO 
// 通 过 对 写 结果 寄存 器 的 索引 号 和 寄存 器 号 进行 比较 产生 写 使 能 。 
assign rf wen[i] = wbck dest wen & (wbck dest idx == i) ; 
'ifdef E203 REGFILE LATCH BASED //{ 
| // 如 果 是 使 用 锁 存 器 的 配置 ， 则 人 为 的 明确 为 每 一 个 通用 寄存 器 配置 一 个 门 控 时 钟 以 
| // 节 省 功 耗 
| e203 clkgate u e203 clkgate( 
| SLK in (elk ), 
.test mode(test mode), 
„clock en(rf wen[i]), 
Clk out (clk rf Itoh[Ii]) 
):; 
/ /如 果 是 使 用 锁 存 器 的 配置 ， 则 例 化 锁 存 器 实现 通用 寄存 器 
//from write-enable to clk rf ltch to rf ltch 
sirv gnrl itech £$('E203 XLEN) rf ltch (cik rf ltch[i], wbck dest 
det r, r£ r[i])3 
'else//)[( 
// 如 果 是 不 使 用 锁 存 器 的 配置 ， 则 例 化 DFF 实现 通用 寄存 器 
// 由 于 此 处 有 阴 确 的 Load-enable 信号 , 综合 工具 会 自动 插 
AHER Cece) 以 节省 功 耗 。 有 关 综 合 工具 自动 插入 门 控 时 钟 的 更 多 信息 ， 请 参见 第 15.1.5 节 。 


sirv gnrl dffl $('E203 XLEN) rf dffl (rf wen[i], wbck dest dat, 
| rf r[i], clk); 
'endif//) 
end 


end//) 
endgenerate//)] 


/ /每 个 读 端口 都 是 一 个 纯粹 的 并 行 多 路 选择 器 
// 多 路 选择 器 的 选择 信号 即 读 操 作 数 的 寄存 器 索引 
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assign read srcl dat = rf r[read srcl idx]; 
assign read src2 dat - rf r[read src2 idx]; 


8.3.5 CSR 寄存 器 


在 第 2 章 中 曾经 介绍 过 ，RISC-V 的 架构 中 定义 了 一 些 控 制 和 状态 寄存 器 〈Control and 
Status Register，CSR)， 用 于 配置 或 记录 一 些 运行 的 状态 。CSR 寄存 器 是 处 理 器 核 内 部 的 寄 
存 器 ， 使 用 其 自己 的 地 址 编码 空间 ， 与 存储 器 寻 址 的 地 址 区 间 完 全 无 关系 。 请 参见 附录 B 
了 解 CSR 寄存 器 的 列表 与 详细 信息 。 

CSR 寄存 器 的 访问 采用 专用 的 CSR 读 写 指令 ,包括 CSRRW、CSRRS、CSRRC、CSRRWI、 
CSRRSI、CSRRCI 指令 ， 请 参见 附录 A14.2 节 了 解 指令 的 具体 信息 。 

蜂鸟 E200 的 EXU 单元 中 的 CSR 寄存 器 模块 主要 用 于 实现 蜂鸟 E200 所 支持 的 CSR A 
存 器 功能 ， 其 要 点 如 下 。 

。 CSR 寄存 器 模块 的 相关 源 代码 在 e200 opensource 目录 的 结构 如 下 。 关 于 GitHub 网 

站 上 e200 opensource 开源 项 目的 完整 代码 层次 结构 详解 ， 请 参见 第 17.1 78. 
| e200 opensource 
|----rtl // 存放 RTL 的 目录 
| | --7--9203 // E203 Efl Soc 的 RTL 目录 
|----core // 存放 e203 Core ff] RTL 代码 
|----e203 exu csr.v // CSR 寄存 器 模块 

。 在 ALU 模块 中 的 CSR 读 写 控制 模块 会 产生 CSR 读 写 控制 信号 《参见 第 8.3.8 TOW 

ALU 模块 中 CSR 读 写 控制 模块 的 介绍 )， 而 CSR 寄存 器 模块 则 严格 按照 RISC-V 2 
构 的 定义 实现 各 个 CSR 寄存 器 的 具体 功能 。 其 相关 源 代 码 片 段 如 下 所 示 。 


// e203 exu csr.v 源 代码 片段 


input csr ena, / /来 自 于 ALU 的 CSR 读 写 使 能 信号 
input csr wr en, //CSR 写 操 作 指 示 信 号 
input csr rd en, / /CSR 读 操作 指示 信号 


input [12-1:0] csr idx,//CSR 寄存 器 的 地 址 索引 


output ['E203 XLEN-1:0] read csr dat, // 读 操作 从 CSR 寄存 器 模块 中 读 出 的 数据 
input  ['E203 XLEN-1:0] wbck csr dat,// 写 操作 写 入 CSR 寄存 器 模块 的 数据 





// 以 MTVEC 寄存 器 为 例 


// 实 现 MTVEC 寄存 器 
//0x305 MRW mtvec Machine trap-handler base address. 


wire sel mtvec = (csr idx == 12'h305); // 对 CSR 寄存器 索引 进行 译 码 判 断 是 否 选中 mtvec 


wire rd mtvec - csr rd en & sel mtvec; 
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wire wr mtvec = sel mtvec & csr wr en; 


wire mtvec ena = (wr mtvec & wbck csr wen); // 产 生 写 mtvec 使 能 信号 


wire ['E203 XLEN-1:0] mtvec r; 


wire ['E203 XLEN-1:0] mtvec nxt - wbck csr dat; 


// 例 化 生成 mtvec 寡 存 器 的 DFF 


sirv gnrl dfflr #('E203 XLEN) mtvec dfflr (mtvec ena, mtvec nxt, mtvec r, 


clk, rst n); 
wire ['E203 XLEN-1:0] csr mtvec - mtvec r; 


LIII 


// 注意 ; 


// ”对 于 读 地 址 不 存在 的 CSR 寡 存 器 ， 返 回 数据 为 0。 写 地 址 不 存在 的 CSR 寄存 器 ， 则 忽略 此 写 操作 。 


// #5 E200 对 于 CSR 访问 不 会 产生 异常 。 


// 生 成 CSR 读 操作 所 需 的 读数 据 ， 本 质 上 该 逻辑 是 使 用 and-or 方式 实现 的 并 行 多 路 选择 器 。 


assign read csr dat = 'E203 XLEN'bO 

| (('E203 XLEN(rd mstatus }} 
(('E203 XLEN(rd mie )) 
(('E203 XLEN(rd mtvec )] 
(('E203 XLEN(rd mepc )) 
(('E203 XLEN(rd mscratch ]] 
(('E203 XLEN(rd mcause )) 
(('E203 XLEN(rd mbadaddr ]] 
(('E203 XLEN(rd mip } } 
(Í'E203 XLEN(rd misa }} 
(('E203 XLEN(rd mvendorid}} 
(('E203 XLEN(rd marchid }} 
(('E203 XLEN(rd mimpid )) 
)] 

} } 

} } 


(('E203 XLEN(rd mcycle 
(('E203 XLEN(rd mcycleh 
(('E203 XLEN[rd minstret }} 
(('E203 XLEN{rd minstreth]) 


£$»£ «& m m m mmimmmmmm-mmmem-ommimmtm 


& 


csr mstatus ) 
csr mie ) 
csr mtvec ) 
csr mepc ) 
csr mscratch ) 
csr mcause ) 
csr mbadaddr ) 
csr mip ) 
csr misa ) 
csr mvendorid) 
csr marchid ) 
csr mimpid ) 
csr mhartid ) 
csr mcycle ) 
csr mcycleh ) 
csr minstret ) 
csr minstreth) 


(('E203 XLEN(rd mcounterstop]) & csr mcounterstop) 
(('E203 XLEN(rd mcgstop]) & csr mcgstop) 

(('E203 XLEN(rd dcsr } & csr dcsr ) 
(('E203 XLEN(rd dpc )) & csr dpc ) 
(('E203 XLEN(rd dscratch }} & csr dscratch) 


| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| 
| (('E203 XLEN(rd mhartid 
| 
| 
| 
| 
| 
| 
| 
| 
| 


e 蜂鸟 E200 在 标准 的 RISC-V 架构 定义 的 基础 上 ， 还 添加 了 若干 自 定 义 的 CSR 寄存 
器 ， 关 于 蜂鸟 E200 自 定义 的 CSR 寄存 器 列表 ， 详 见 附录 B3. 


8.3.6 ”指令 发 射 派 中 


在 第 8.1.5 节 已 经 详细 介绍 了 “发 射 ” 和 “派遣 ” 的 概念 ， 在 此 不 再 袭 述 。 
由 于 蜂鸟 E200 是 简单 的 两 级 流水 线 微 架构 ， 派 遗 (Dispatch) 或 者 有 友 射 〈Issue) 发 生 
在 流水 线 的 执行 阶段 ， 指 的 是 同一 个 概念 ， 即 表示 指令 经 过 译 人 码 且 从 寄存 器 组 中 读 取 了 操作 
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数 之 后 被 派发 到 不 同 的 运算 单元 执行 的 过 程 。 蜂 鸟 E200 处 理 器 核 的 流水 线 中 使 用 “派遣 ” 
这 个 名 词 作为 定义 ， 因 此 本 节 之 后 将 统一 使 用 “ 派 遗 ”进行 微 架 构 详 细 介 绍 。 
蜂鸟 E200 的 派遣 功能 由 派遣 模块 和 ALU 模块 联合 完成 ， 要 点 如 下 。 
e 派 遗 和 ALU 的 相关 源 代码 在 e200 opensource 目录 的 结构 如 下 。 关 于 GitHub 网 站 上 
e200 opensource 开源 项 目的 完整 代码 层次 结构 详解 ， 请 参见 第 17.1 节 。 


e200 opensource 
|----rtl // 存放 RTL 的 目录 
|----e203 // E203 核 和 Soc I] RTL 目录 
|----core // 存放 e203 Core If] RTL 代码 
|----e203 exu disp.v // Dispatch 模块 
|----e203 exu alu.v // ALU 模块 


。 蜂鸟 E200 执行 阶段 的 派 遗 机 制 特别 之 处 如 下 。 
其 所 有 指令 都 必须 被 派 遗 给 ALU， 并 且 通 过 ALU 与 交付 模块 的 接口 进行 交付 ， 有 
关 交 付 的 详细 信息 请 参见 第 9 章 。 
如 果 是 长 指令 ， 也 需 通过 ALU 进一步 将 其 发 送 至 相应 的 长 指令 运算 单元 。 璧 如 ， 属 
于 长 指令 类 型 的 Load/Store 指令 便 是 通过 ALU 的 AGU 子 单元 被 进一步 发 送 至 LSU 
单元 进行 执行 。 有 关 长 指令 的 定义 请 参见 第 83.71, AKR AGU 和 LSU 的 实现 请 参 
见 第 11.4.2 和 11.4.3 节 。 

。 由 于 所 有 的 指令 都 需要 通过 ALU， 因 此 实际 的 派 遗 功能 发 生 在 ALU 的 内 部 。 由 于 
蜂鸟 E200 的 译 码 模块 在 进行 译 码 时 ， 已 经 根据 执行 指令 的 运算 单元 进行 了 分 组 ,并 
且 译 码 出 了 其 相应 的 指示 信号 ， 所 以 可 以 按照 其 指示 信号 将 指令 派 遗 给 相应 的 运算 
单元 。 相 关 源 代码 片段 如 下 。 

// e203 exu disp.v 源 代码 片段 


// 将 指令 派 遗 给 ALU 的 接口 采用 valid-ready 模式 的 握手 信和 号。 由 于 所 有 的 指令 都 会 被 派 遗 给 ALU, 
// 因 此 此 处 直接 对 接 。 

wire disp i ready pos = disp o alu ready; 

assign disp o alu valid - disp i valid pos; 


// 将 操作 数 派 遗 给 ALU 
assign disp o alu rsl 
assign disp o alu rs2 


disp i rsl msked; 
disp i rs2 mskeg; 


中 0M 


// 将 指令 信息 派 遗 给 ALU 
assign disp o alu rdwen 
assign disp o alu rdidx 
assign disp o alu info 


disp i rdwen;// 指 令 是 否 写 回 结果 寄存 器 
disp i rdidx; // 指 令 写 回 的 结果 寄存 器 索引 
disp i info; // 指 令 的 信息 (Info Bus) 


assign disp o alu imm = disp i ijmm;// 指 令 使 用 的 立即 数 的 值 
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assign disp o alu pc = disp i pc;// 该 指令 的 PC 


assign disp o alu misalgn- disp i misalgn;// 该 指令 取 指 时 发 生 了 非 对 齐 错 误 
assign disp o alu buserr = disp i buserr ; // 该 指令 取 指 时 发 生 了 存储 器 访问 错误 
assign disp o alu ilegl = disp i ilegl ; // 该 指令 译 码 后 发 现 其 是 一 条 非法 指令 


// e203 exu alu.v 源 代码 片段 


/ /Dispatch 模块 和 ALU 之 间 的 接口 采用 valid-ready 模式 的 握手 信号 。 
// 对 于 源 代码 进行 熟悉 后 读者 可 以 发 现 ， 蜂 乌 B200 中 的 模块 接口 普遍 采用 这 种 握手 接口 。 握 手 接口 非 
// 常 的 简洁 稳固 。 如 果 对 于 valid-ready 模式 的 握手 行为 不 甚 理解 的 读者 ， 可 以 参见 第 12.2 节 中 
// 对 于 ICB 协议 的 详细 介绍 ， 描 述 了 典型 的 valid-ready 握手 行为 。 

input (i valid, 

output i ready, 


/ /ALU 内 部 将 指令 派 遗 给 不 同 的 ALU 子 单 元 
// 对 于 发 生 取 指 异 常 的 指令 ， 单 独 列 为 一 种 类 型 ， 无 须 被 具体 的 执行 单元 执行 。 


wire ifu excp op = i ilegl | i buserr | i misalgn; 
// 通 过 Decode 模块 中 译 码 生成 的 分 组 信息 〈 包 含 在 Info Bus H) 进行 判断 ， 判 别 出 需要 什么 
// ”单元 执行 此 指令 。ALU 主要 包括 6 个 功能 子 单元 : 


// 普通 ALU 计算 (Regular-ALU) : 主要 负责 普通 的 ALU 指令 
(逻辑 运算 ， 加 减法 ， 移 位 等 指令 ) 执行 
RY 访 存 地 址 生成 (AGU) : 主要 负责 Load, Store 和 和 “A” 扩展 指 令 的 地 址 生成 
// 分 支 预 测 解 析 (BJP) : 主要 负责 Branch 和 Jump 指令 的 结果 解析 和 执行 
/ / CSR 读 写 控 制 (CSR-CTRL) : 主要 负责 CSR 指令 的 执行 
"Fi 多 周期 乘除 法 器 (MDVO : 主要 负责 乘法 和 除法 指令 的 执行 
wire alu op = (-ifu excp op) & (i info['E203 DECINFO GRP] == 'E203 DECINF 


O GRP ALU); //BHiRegular-ALU 子 单元 执行 


wire agu op = (~ifu excp op) & (i info['E203 DECINFO GRP] == 'E203 DECINF 


O GRP AGU); // 由 AGU 子 单元 执行 


wire bjp op = (~ifu excp op) & (i info['E203 DECINFO GRP] == 'E203 DECINF 


O GRP BJP); // 由 BJB 了 于 单元 执行 


wire csr op = (-ifu excp op) & (i info['E203 DECINFO GRP] == 'E203 DECINF 


O GRP CSR); // 由 CSR 子 单元 执行 


'ifdef E203 SUPPORT SHARE MULDIV //| 
wire mdv op - (-ifu excp op) & (i info['E203 DECINFO GRP] -- 'E203 DECINF 


O GRP MULDIV); // 由 MDV 子 单元 执行 


'endif//E203 SUPPORT SHARE MULDIV) 


// 根据 不 同 的 指令 分 组 指示 信和 号, 将 对 应 子 单 元 的 输入 valid 信号 置 高 ,并 且 选 择 对 应 子 单 元 的 ready 
// ”信和 号 作为 反馈 给 上 游 派 遗 模块 的 ready 握手 信号 ， 通 过 此 方式 即 实现 了 指令 的 派遣。 
/ / 
// 将 对 应 子 单元 的 输入 valid 信号 置 高 。 
'ifdef E203 SUPPORT SHARE MULDIV //| 
wire mdv i valid - i valid & mdv op; 
'endif//E203 SUPPORT SHARE MULDIV} 
wire agu i valid - i valid & agu op; 
wire alu i valid - i valid & alu op; 


wire bjp i valid = i valid & bjp op; 
wire csr i valid = i valid & car op; 
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wire ifu excp i valid = i valid & ifu excp op; 


/ / 


/ /选择 对 应 子 单元 的 ready 信号 作为 反馈 给 上 游 派 遗 模 块 的 ready 握手 信号 。 本 质 上 该 逻辑 是 


// 使 用 and-or 方式 实现 的 并 行 多 路 选择 器 。 


assign i ready = 


(agu i ready & agu op) 


'ifdef E203 SUPPORT SHARE MULDIV //{ 


| (mdv i ready & mdv op) 


'endif//E203 SUPPORT SHARE MULDIV) 


| (alu i ready & alu op) 


(bjp i ready & bjp op) 


| 
| 
| (csr i ready & csr op) 


, 


(ifu excp i ready & ifu excp op) 


// 为 了 节省 动态 功 耗 ， 采 用 逻辑 门 控 (Logic Gate) 的 方式 ， 增 加 一 级 与 门 ， 对 于 子 单元 输入 的 信号 


与 分 组 指示 
Ei 
// ”请 参见 第 15 章 了 解 更 多 低 功 耗 设 计 的 诀 穿 。 


信号 进行 “与 ”操作 ， 那 么 在 无 须 使 用 该 子 单元 之 时 ， 其 输入 信号 就 都 是 0， 从 而 降低 动态 翻转 功 耗 。 


wire  ['E203 XLEN-1:0] csr i ysi = ['E203 XLEN (csr op}} & 
4 rsi; 
wire  ['E203 XLEN-1:0] csr i rs2 = ('E203 XLEN (csr op}} & 
1 rs2; 
wire  ['E203 XLEN-1:0] csr i imm = {'E203 XLEN (csr op}} & 
i imm; 
wire  ['E203 DECINFO WIDTH-1:0] csr i info = ('E203 DECINFO WIDTH(csr o 
pl) & i info; 
wire csr i rdwen - csr op  & 
i rdwen; 
wire  ['E203 XLEN-1:0] bjp i rsl = [('E203 XLEN {bjp op}} & 
i rsl; 
wire ['E203 XLEN-1:0] bjp i rs2 - ('E203 XLEN {bjp op}} & 
i rs2; 
wire  ['E203 XLEN-1:0] bjp i imm = ('E203 XLEN {bjp op)) & 
i imm; 
wire  ['E203 DECINFO WIDTH-1:0] bjp i info = ('E203 DECINFO WIDTH(bjp op 
)) & i info; 
wire  ['E203 PC SIZE-1:0] bjp i pc = ('E203 PC SIZE {bjp op}} & 
i pc; 
wire ['E203 XLEN-1:0] agu i rsl = ('E203 XLEN lagu op)) & 
1i rsi; 
|» wire ['E203 XLEN-1:0] agu i rs2 = ('E203 XLEN {agu op}} & 
i rs2; 
wire  ['E203 XLEN-1:0] agu i imm = ['E203 XLEN [agu op}} & 
i imm; 
| wire ['E203 DECINFO WIDTH-1:0] agu i info = ('E203 DECINFO WIDTH(agu op}} & 
i info; 
wire ['E203 ITAG WIDTH-1:0] agu i itag = ('E203 ITAG WIDTH {agu op)) & 


i itag; 
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wire ['E203 XLEN-1:0] alu i rsl = ('E203 XLEN (alu op}} & 
i rs1; 

wire  ['E203 XLEN-1:0] alu i rs2 = ('E203 XLEN (alu op)) & 
i rs2; 

wire  ['E203 XLEN-1:0] alu i imm = ('E203 XLEN (alu op}} & 
i imm; 


wire  ['E203 DECINFO WIDTH-1:0] alu i info = ('E203 DECINFO WIDTH(alu op 
)) & i info; 


wire  ['E203 PC SIZE-1:0] alu i pc  - ('E203 PC SIZE (alu op}} & 
i pc; 

wire ['E203 XLEN-1:0] mdv i rsl = [('E203 XLEN (mdy op}} & 
i rsi; 

wire ['E203 XLEN-1:0] mdv i rs2 = ('E203 XLEN {mdv op}} & 
i £82] 

wire ['E203 XLEN-1:0] mdv i imm = ('E203 XLEN [mdv op!) & 
i imm; 

wire ['E203 DECINFO WIDTH-1:0] mdv i info - ('E203 DECINFO WIDTH(mdv op]) & 
i info; 

wire  ['E203 ITAG WIDTH-1:0] mdv i itag = ('E203 ITAG WIDTH {mdv op!) & 
i itag; 


。 派 遗 模块 中 还 会 处 理 流水 线 冲突 的 问题 ， 包 括 资源 冲突 和 数据 相关 性 造成 的 数据 冲 
突 。 以 下 两 节 将 专门 予以 论述 。 
。 派 遗 模块 还 会 在 某 些 特殊 情况 下 将 流水 线 的 派 遗 点 阻 塞 ， 相 关 源 代码 片段 如 下 。 
// e203 exu disp.v 源 代码 片段 


// 派 遗 条 件 信 号 
wire disp condition - 
/ /如果 当 前 派 遗 指令 需要 访问 CSR 寡 存 器 改变 CSR 的 值 ， 为 了 保险 起 见 ， 必 须 等 待 
OITF 为 空 , 也 就 意味 着 所 有 的 长 指令 都 已 经 执行 完毕 了 , 才 会 允许 访问 CSR 寄存 器 的 指令 派 遗 从 而 改变 CSR 
的 值 。 下 一 节 将 介绍 OoTTE 和 长 指令 的 概念 。 
(disp csr ? oitf empty : l'b1) 
// 如 果 当 前 派遣 的 指令 属于 Fence fll Fence. 1 指令 ， 同 样 必须 等 待 OITF 为 空 ， 也 
就 保证 了 Fence 和 Fence .I 之 前 的 指令 都 会 被 执行 完毕 。 请 参见 附录 A14 .2 157 f£ Fence 和 Fence.I 指 
令 的 详细 信息 。 
& (disp fence fencei ? oitf empty : 1'b1) 
// 如 果 已 经 交付 了 一 条 WETI 指令 ， 则 必须 立即 阻塞 派 遗 点 ， 不 让 后 续 的 指令 派遣， 
从 而 尽快 让 处 理 器 进入 WFI 休眠 状态 ， 请 参见 附录 A14 .2 节 了 解 WFI 指令 的 详细 信息 。 
& (~wfi halt exu req) 
/ /如果 发 生 了 数据 相关 性 ， 则 阻塞 派 遗 点 。 下 一 节 将 介绍 数据 相关 性 的 检测 。 
& (~dep) 
// 如 果 当 前 派遣 的 是 长 指令 ， 由 于 需要 分 配 oITF 表 项 ， 因 此 必须 等 待 OITF 有 空 。 
下 一 节 将 介绍 长 指令 的 概念 。 
& (disp alu longp prdt ? disp oitf ready : 1'b1); 


// 只 有 满足 派 遗 条 件 时 ， 才 会 发 生 派遣 
assign disp i valid pos = disp condition & disp i valid; 
assign disp i ready = disp condition & disp i ready pos; 
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8.3.7 流水 线 冲 突 、 长 指令 和 OITF 


1. 资源 冲突 

蜂鸟 E200 的 执行 阶段 的 一 个 最 重要 职能 是 维护 并 解决 流水 线 的 冲突 ， 包 括 资源 冲突 和 
数据 冲突 (包括 WAW, WAR 和 RAW 等 数据 相关 性 )。 

资源 冲突 通常 发 生 在 指令 派 遗 给 不 同 的 执行 单元 进行 执行 的 过 程 中 。 辟 如， 指令 被 派遣 
给 除法 单元 进行 运算 ， 但 是 除法 单元 需要 数 十 个 周期 才能 完成 此 指令 。 那 么 后 续 的 除法 指令 
如 果 也 需要 被 派 遗 给 除法 单元 执行 ， 便 需要 等 待 〈 出 现 了 资源 神 突 ) 直到 前 一 个 指令 完成 操 
作 , 将 除法 单元 释放 出 来 ,在 蜂鸟 E200 的 实现 中 ,模块 与 模块 的 接口 均 采 用 严谨 的 valid-ready 
握手 接口 (如 果 对 于 valid-ready 模式 的 握手 行为 不 甚 理解 的 读者 ， 可 以 参见 第 12.2 节 中 对 
T ICB 协议 的 详细 介绍 ， 其 描述 了 典型 的 valid-ready 握手 行为 )。 因 此 一 旦 某 个 模块 当前 不 
能 够 被 使 用 (出 现 了 资源 冲突 )， 那 么 它 便 会 输出 ready 信号 为 低 ， 从 而 无 法 完成 握手 。 以 
ALU 内 部 将 指令 派 遗 至 各 子 单元 为 例 ， 其 源 代码 片段 如 下 。 
| // e203 exu alu.v 源 代 码 片 段 


/ / 
// 选 择 派 遗 子 单元 的 ready 信号 作为 反馈 给 上 游 派遣 模块 的 ready 握手 信号 。 
// 假设 指令 需要 被 派遣 到 AGU 子 单元 执行 那么 agu_op 信号 为 高 电 平 ， 选 择 agu i ready 信号 ， 
倘若 此 时 AGU 模块 不 能 被 使 用 〈 出 现 了 资源 冲突 ) ， 那 么 它 的 agu i ready 信号 便 会 为 低 电 平 ， 从 而 使 得 
i ready 信号 为 低 电 平 ， 反 馈 给 上 游 的 派遣 模块 ， 无 法 完成 握手 ， 进 而 造成 该 指令 无 法 被 派遣 ， 需 要 一 直 等 
待 直至 agu i ready 信号 为 高 (资源 冲突 被 解除 ) 。 
assign i ready = (agu i ready & agu op) 
'ifdef E203 SUPPORT SHARE MULDIV //{ 
| (mdv i ready & mdv op) 
'endif//E203 SUPPORT SHARE MULDIV) 
| (alu i ready & alu op) 
| (ifu excp i ready & ifu excp op) 
| (bjp i ready & bjp op) 
| (csr i ready & csr op) 





2. 数据 冲突 

对 于 数据 相关 性 引起 的 数据 冲突 ， 蜂 乌 E200 在 执行 阶段 的 处 理 比较 巧妙 。 

Hc. ES, E200 将 所 有 需要 执行 的 指令 被 分 为 两 类 。 

。 一 类 是 单 周 期 执行 指令 。 如 图 8-2 所 示 ， 由 于 蜂鸟 E200 的 交付 功能 和 写 回 
(Write-Back) 功能 均 处 于 流水 线 的 第 二 级 ， 因 此 单 周 期 执行 指令 在 流水 线 的 第 二 级 
便 完成 了 交付 ， 同 时 也 将 结果 写 回 了 Regfile. 

e 男 一 类 是 多 周期 执行 的 指令 。 这 种 指令 通常 需要 多 个 周期 才能 够 完成 执行 并 写 回 ， 
称 之 为 “后 交付 长 流水 线 指令 (Post-Commit Write-Back Long-Pipes Instructions)”, 


140 | 一 鼓 作 气 ， 执 行 力 是 关键 一 执行 


简称 为 “长 指令 (Long-Pipes Instructions)”. 
之 所 以 如 此 命名 ， 是 因为 多 周期 执行 指令 的 写 回 操作 要 在 多 个 周期 后 才能 完成 ， 而 
此 指令 的 交付 操作 则 已 经 在 流水 线 的 第 二 级 就 已 经 完成 ， 因 此 写 回 和 交付 是 在 不 同 
的 周期 内 完成 的 ， 且 写 回 是 在 交付 完成 之 后 ， 故 称 为 Post-Commit Write-Back. 
蜂鸟 E200 是 简单 的 按 顺序 单 发 射 ( 派 遗 ) 微 架 构 ， 在 每 条 指令 被 进行 派 遗 时 ， 需 要 检查 是 
否 和 之 前 派遣 执行 尚未 写 回 的 指令 存在 数据 相关 性 。 如 第 6 章 中 所 述 ， 数 据 相 关 性 分 为 3 种 。 
(1) WAR (Write-After-Read) 相关 性 
由 于 蜂鸟 E200 是 按 顺 序 派 遗 、 按 顺序 写 回 的 微 架 构 ， 在 指令 的 派遣 时 就 已 经 从 通用 寄 
存 器 组 中 读 取 了 源 操作 数 。“ 后续 执 行 的 指令 写 回 Regfile 操作 ”不 可 能 会 发 生 在 “前 序 执行 
的 指令 从 Regfile 中 读 取 操 作 数 ”之 前 ， 因 此 不 可 能 会 发 生 WAR 相关 性 造成 的 数据 冲突 。 
(2) RAW (Read-After-Write) 相关 性 
正在 派 遗 的 指令 处 于 流水 线 的 第 二 级 ， 假 设 之 前 派遣 的 指令 〈 简 称 前 序 指令 ) 是 单 周 期 
执行 指令 (也 处 于 流水 线 的 第 二 级 写 回 )， 则 前 序 指令 肯定 已 经 完成 了 执行 并 且 将 结果 写 回 了 
Regfile。 因 此 正在 派遣 的 指令 不 可 能 产生 和 前 序 单 周 期 指令 的 RAW 相关 性 造成 的 数据 冲突 。 
但 是 假设 之 前 派遣 的 指令 〈 简 称 前 序 指令 ) 是 长 指令 ， 由 于 长 指令 需要 多 个 周期 才能 写 
回 结果 ， 因 此 正在 派遣 的 指令 有 可 能 产生 与 前 序 长 指令 的 RAW 相关 性 。 
(3) WAW (Write-After-Write) 相关 性 
正在 派遣 的 指令 处 于 流水 线 的 第 二 级 ， 假 设 之 前 派遣 的 指令 〈 人 简称 前 序 指令 ) 是 单 周 期 执 
行 指令 (也 处 于 流水 线 的 第 二 级 写 回 )， 则 前 序 指令 肯定 已 经 完成 了 执行 ， 并 且 将 结果 写 回 了 
Regfile。 因 此 正在 派 遗 的 指令 不 可 能 产生 和 前 序 单 周 期 指令 的 WAW 相关 性 造成 的 数据 冲突 。 
但 是 假设 之 前 派 遗 的 指令 (简称 前 序 指令 ) 是 长 指令 ， 由 于 长 指令 需要 多 个 周期 才能 写 
回 结果 ， 因 此 正在 派 遗 的 指令 有 可 能 产生 与 前 序 长 指令 的 WAW 相关 性 。 
综 上 , 在 蜂鸟 E200 的 流水 线 中 ,“ 正 在 派 遗 的 指令 ”只 可 能 与 “尚未 执行 完毕 的 长 指令 ” 
之 间 产 生 RAW 和 WAW 相关 性 。 
为 了 能 够 检测 出 与 长 指令 的 RAW 和 WAW 相关 性 ， 蜂 鸟 E200 使 用 了 一 个 Outstanding 
Instructions Track FIFO (OITF) 模块 ， 如 图 8-4 所 示 。 其 要 点 如 下 。 
e OITF 模块 的 相关 源 代码 在 e200 opensource 目录 的 结构 如 下 。 关 于 GitHub 网 站 上 
e200 opensource 开源 项 目的 完整 代码 层次 结构 详解 ， 请 参见 第 17.1 节 。 


e200 opensource 
== tl // 存放 RTL 的 目录 
|----e203 // E203 核 和 Soc 的 RTL 目录 
|----core // 存放 e203 Core If] RTL 代码 
|----e203 exu oitf.v // OITF 模块 


。 OITF 本 质 上 是 一 个 先入 先 出 的 FIFO，FIFO 的 深度 默认 为 2 个 表 项 。 
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在 流水 线 的 派 遗 (Dispatch〉 点 ， 每 次 派 遗 一 个 长 指令 ， 则 会 在 OTF 中 分 配 一 个 表 项 
(Entry)， 在 这 个 表 项 中 会 存储 该 长 指令 的 源 操作 数 寄 存 器 索引 和 结果 寄存 器 索引 。 


在 流水 线 的 写 回 (Write-Back〉 点， 每 次 按 
顺序 写 回 一 个 长 指令 之 后 ， 就 会 将 此 指令 在 
OITF 中 的 表 项 去 除 , 即 从 其 FIFO 退出 (先入 先 
出 ) 完成 其 历史 使 命 。 如 何 保 证 长 指令 能 够 按 顺 
序 写 回 , 也 需要 借助 于 OITF 的 功能 。 由 于 此 功 
能 阐述 清楚 需要 较 多 篇 幅 ， 因 此 本 书 单 设 一 章 
对 其 进行 详 述 ， 请 参见 第 10 章 了 解 有 关 写 回 
(Write-Back) 的 详细 介绍 。 因 此 OITF 中 存储 的 
便 是 已 经 被 派 遗 出 且 尚 未 写 回 的 长 指令 信息 。 

e 如 图 8-4 所 示 , 每 条 指令 在 派遣 时 ， 都 

会 将 本 指令 的 源 操 作 数 寄存 器 索引 和 
结果 寄存 器 索引 和 OTF 中 的 各 个 表 










OITF (Outstanding Instructions Track FIFO) 






数据 相关 性 比较 
(Compare to Check A 
Dependency) 


į Index Entry2 


| BEEN (Index Entries) 
| Index Entry3 | 


| 
T: 


| index 





图 8-4 蜂鸟 E200 处 理 器 核 OITF 微 架 构图 


项 进行 比 对 ， 从 而 判断 本 指令 是 否 与 已 经 被 派遣 出 ， 且 尚未 写 回 长 指令 是 否 产生 


RAW 和 WAW 相关 性 。 


e 以 上 功能 的 OITF 相关 源 代码 片段 如 下 。 


// e203 exu oitf.v 源 代 码 片段 


input 
input 


dis ena, // 派 遗 一 个 长 指令 的 使 能 信号 ， 该 信号 将 用 于 分 配 一 个 OITF 表 项 
ret_ena, // 写 回 一 个 长 指令 的 使 能 信号 ， 该 信号 将 用 于 移 除 一 个 OITF 表 项 


// 以 下 为 派遣 的 长 指令 相关 信息 ， 有 的 会 被 存储 于 OITF 的 表 项 中 ， 有 的 会 用 于 进行 RAW 和 WAW 判断 


input 
input 
input 


disp i rslen，// 当 前 派遣 指令 是 否 需要 读 取 第 一 个 源 操作 数 寄 存 器 
disp i rs2en，// 当 前 派遣 指令 是 否 需要 读 取 第 二 个 源 操作 数 宥 存 器 
disp i rs3en，// 当 前 派遣 指令 是 否 需要 读 取 第 三 个 源 操 作 数 寄 存 器 ， 


// 注意 : 只 有 浮 点 指令 才 会 使 用 第 三 个 源 操 作 数 


input 
input 
input 
input 
input 
input 


disp i rslfpu, 


input 
input 


input 


disp i rdwen，// 当 前 派遣 指令 是 否 需要 写 回 结果 寄存 器 

// 当 前 派遣 指令 第 一 个 源 操作 数 是 否 是 要 读 取 浮 点 通用 寄存 器 组 
disp i rs2fpu，// 当 前 派遣 指令 第 二 个 源 操作 数 是 否 是 要 读 取 浮 点 通用 寡 存 器 组 
qisp_i_rs3fpu，// 当 前 派遣 指令 第 三 个 源 操作 数 是 否 是 要 读 取 浮 点 通用 寄存 器 组 

disp i rdfpu，// 当 前 派遣 指令 结果 寄存 器 是 否 是 要 写 回 浮 点 通用 寡 存 器 组 

['E203 RFIDX WIDTH-1:0] disp i rslidx，// 当 前 派遣 指令 第 一 个 源 操 作 数 寄存 器 


// 的 索引 


['E203 RFIDX WIDTH-1:0] disp i rs2idx，// 当 前 派遣 指令 第 二 个 源 操 作 数 寄存 器 


// 的 索引 


['E203 RFIDX WIDTH-1:0] disp i rs3idx，// 当 前 派遣 指令 第 三 个 源 操 作 数 寄存 器 


// 的 索引 


['E203 RFIDX WIDTH-1:0] disp i rdidx,// 当前 派遣 指令 的 结果 寄存 器 的 索引 
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input  ['E203 PC SIZE -1:0] disp i pc，// 当 前 派遣 指令 的 PC 


output oitfrd match disprsl，// 派 遗 指令 源 操作 数 一 和 oITF 任 一 表 项 中 的 结果 寄存 器 相同 
output oitfrd match disprs2，// 派 遣 指令 源 操 作 数 二 和 OITF 任 一 表 项 中 的 结果 寄存 器 相同 
output oitfrd match disprs3，// 派 遣 指令 源 操 作 数 三 和 OITF 任 一 表 项 中 的 结果 寡 存 器 相同 
output oitfrd match disprd，// 派 遣 指令 结果 寄存 器 和 OITF 任 一 表 项 中 的 结果 寄存 器 相同 





// 声 明 各 表 项 的 信号 
wire ['E203 OITF DEPTH-1:0] vld set; 
wire ['E203 OITF DEPTH-1:0] vld clr; 
wire ['E203 OITF DEPTH-1:0] vld ena; 
wire ['E203 OITF DEPTH-1:0] vld nxt; 
wire ['E203 OITF DEPTH-1:0] vld r; // 各 表 项 中 是 否 存 放 了 有 效 指令 的 指示 信号 
wire ['E203 OITF DEPTH-1:0] rdwen r;  // 各 表 项 中 指令 是 否 写 回 结果 寄存 器 
wire ['E203 OITF DEPTH-1:0] rdfpu r; // 各 表 项 中 指令 写 回 的 结果 寄存 器 是 否 属于 浮 点 
wire ['E203 RFIDX WIDTH-1:0] rdidx r['E203 OITF DEPTH-1:0];// 各 表 项 中 指令 的 结 
// RETRAI 
// The PC here is to be used at wback stage to track out the 
// PC of exception of long-pipe instruction 


wire ['E203 PC SIZE-1:0] pc r['E203 OITF DEPTH-1:0]; // 各 表 项 中 指令 的 PC 





// 由 于 OITF 本 质 上 是 一 个 FIFO， 因 此 需要 生成 FIFO 的 写 指针 。 





wire alc ptr ena = dis_ena;// 派 遗 一 个 长 指令 的 使 能 信号 ， 作 为 写 指针 的 使 能 信号 
wire ret ptr ena = ret ena;// 写 回 一 个 长 指令 的 使 能 信号 ， 作为 读 指针 的 使 能 信号 


wire oitf full ; 


wire ['E203 ITAG WIDTH-1:0] alc ptr r; 
wire ['E203 ITAG WIDTH-1:0] ret ptr r; 





| // 与 常规 的 FIFO 设计 一 样 ， 为 了 方便 维护 空 满 标志 ， 为 写 指针 增加 额外 的 一 个 标志 位 
| wire alc ptr flg r; 
wire alc ptr flg nxt 
wire alc ptr flg ena 


| "elc ptr flg.r; 
| & alc ptr ena; 
| 


(alc ptr r == (S$unsigned('E203 OITF DEPTH-1))) 


sirv gnrl dfflr €$(1) alc ptr flg dfflrs(alc ptr flg ena, alc ptr flg 
| nxt, alc ptr flg r, clk, rst n); 


wire ['E203 ITAG WIDTH-1:0] alc ptr nxt; 
// 每 次 分 配 一 个 表 项 ， 写 指针 自 增 1， 如 果 达 到 了 rrro 的 深度 值 ， 写 指针 归 和 零 


assign alc ptr nxt = alc ptr flg ena ? 'E203 ITAG WIDTH'b0 : (alc ptr 
dE cL IBI) 


sirv gnrl dfflr $('E203 ITAG WIDTH) alc ptr dfflrs(alc ptr ena, alc p 
tr nxt, alc ptr r, clk, rst n); 





// 与 常规 的 FIFO 设计 一 样 ， 为 了 方便 维护 空 满 标志 ， 为 读 指针 增加 额外 的 一 个 标志 位 
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wire ret ptr flg r; 

wire ret ptr flg nxt = ~ret ptr flg r; 

wire ret ptr flg ena = (ret ptr r == ($unsigned('E203 OITF DEPTH-1))) 
& ret ptr ena; 


sirv gnrl dfflr $(1) ret ptr fig dfflrs(ret ptr flg ena, ret ptr flg 
nxt, ret ptr flg r, clk, rst n); 


wire ['E203 ITAG WIDTH-1:0] ret ptr nxt; 


// 每 次 移 除 一 个 表 项 ， 读 指针 自 增 1， 如 果 达 到 了 FIFoO 的 深度 值 ， 读 指针 归 零 
assign ret ptr nxt = ret ptr fg ena ? 'E203 ITAG WIDTH'bO : (ret ptr 
_ ti'blb 


sirv gnrl dfflr $('E203 ITAG WIDTH) ret ptr dfflrs(ret ptr ena, ret p 
tr nxt, ret ptr r, clk, rst n); 


// 生 成 FIFO 的 空 满 标志 
assign oitf empty 
c ptr flg r); 
assign oitf full = (ret ptr r == alc ptr r) & (-(ret ptr flg r == al 
c ptr £lg E) 


(ret ptr r == alc ptr r) & (ret ptr flg r == al 


"^ 





wire ['E203 OITF DEPTH-1:0] rd match rslidx; 
wire ['E203 OITF DEPTH-1:0] rd match rs2idx; 
wire ['E203 OITF DEPTH-1:0] rd match rs3idx; 
wire ['E203 OITF DEPTH-1:0] rd match rdidx; 


genvar i; 


generate //{// 使 用 参数 化 的 generate 语法 实现 FIFO 的 主体 部 分 
for (i20; i«'E203 OITF DEPTH; i=i+1) begin:oitf entries//( 


// 生 成 各 表 项 中 是 否 存放 了 有 效 指令 的 指示 信号 
/ /每 次 分 配 一 个 表 项 时 ， 且 写 指针 与 当前 表 项 编号 一 样 ， 则 将 该 表 项 的 有 效 信号 设置 为 高 


assign vld set[i] = alc ptr ena & (alc ptr r -- i); 
// 每 次 移 除 一 个 表 项 时 ， 且 读 指针 与 当前 表 项 编号 一 样 ， 则 将 该 表 项 的 有 效 信号 清除 为 低 
assign vid clr[i] = ret ptr ena & (ret ptr r == i); 
assign vld ena[i] = vld set[i] | vid clrx[il; 
assign vld nxt[i] = vld set[i] | (-vld clr[i]); 


Sirv gnrl dfflr (1) vld dfflrs(vld ena[i], vld nxt[i], vid r[i], c 

lk, rst n); 
| // 其 他 的 表 项 信息 ， 均 可 视 为 该 表 项 的 载荷 (Payload) ， 只 需要 在 表 项 分 配 时 写 入 ， 在 
// 表 项 移 除 时 无 需 清 除 (为 了 节省 动态 功 耗 ， 请 参见 第 15 章 了 解 更 多 低 功 耗 设计 的 诀 穿 ) 


sirv gnrl dffl £*('E203 RFIDX WIDTH) rdidx dfflrs(vld set[i], disp i 
 rdidx, rdidx r[i]，clk);// 各 表 项 中 指令 的 结果 寄存 器 索引 
sirv gnrl dffl £$('E203 PC SIZE ) pc dfflrs (vld set[i], disp i 
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pc , perli]  , clk);// 各 表 项 中 指令 的 PC 


i sirv gnrl dffl #(1) rdwen dfflrs(vld set[i], disp i 
 rdwen, rdwen r[i], clk); // 各 表 项 中 指令 是 否 需要 写 回 结果 寄存 器 
sirv gnrl dffl (1) rdfpu dfflrs(vld set[i], disp i 


 rdfpu, rdfpu _r[i]，clk);// 各 表 项 中 指令 写 回 的 结果 寄存 器 是 否 属于 浮 点 
// 将 正在 派遣 的 指令 的 源 操作 数 寄存 器 索引 和 各 表 项 中 的 结果 寄存 器 索引 进行 比较 


assign rd match rslidx[i] = vld r[i] & rdwen r[i] & disp i rslen & (r 
dfpu r[i] == disp i rslfpu) & (rdidx r[i] == disp i rslidx); 

assign rd match rs2idx[i] = vld r[i] & rdwen r[i] & disp i rs2en & (r 
dfpu r[i] == disp i rs2fpu) & (rdidx r[i] == disp i rs2idx); 

assign rd match rs3idx[i] = vld r[i] & rdwen r[i] & disp i rs3en & (r 
dfpu r[i] == disp i rs3fpu) & (rdidx r[i] == disp i rs3idx) 

// 将 正在 派遣 的 指令 的 结果 寄存 器 索引 和 各 表 项 中 的 结果 寡 存 器 索引 进行 比较 

assign rd match rdidx [i] = vld r[i] & rdwen r[i] & disp i rdwen & (rd 

fpu r[i] == disp i rdfpu ) & (rdidx r[i] == disp i rdidx ); 


end//} 
endgenerate//) 


// 派 遗 指 令 源 操作 数 一 和 or TE 任 一 表 项 中 的 结果 寄存 器 相同 ， 表 示 存 在 着 RAW 相关 性 
assign oitfrd match Qisprsl = |rd match rslidx; 

// 派 遗 指 令 源 操作 数 二 和 or TE 任 一 表 项 中 的 结果 寄存 器 相同 ， 表 示 存 在 着 RAW 相关 性 
assign oitfrd match disprs2 = |rd match rs2idx; 

// 派 遗 指令 源 操作 数 三 和 oITF 任 一 表 项 中 的 结果 寄存 器 相同 ， 表 示 存 在 着 RAW 相关 性 
assign oitfrd match disprs3 = |rd match rs3idx; 

// 派 遣 指令 结果 寄存 器 和 oITF 任 一 表 项 中 的 结果 寄存 器 相同 ， 表 示 存 在 着 WAW 相关 性 


assign oitfrd match disprd = |rd match rdidx ; 


。 在 流水 线 的 派遣 点 ， 每 条 指令 在 派遣 之 时 如 果 发 现 了 数据 相关 性 ， 则 会 将 流水 线 的 
派 忠 点 阻塞 ， 直 到 相关 长 指令 执行 完毕 解除 了 相关 性 之 后 才 会 继续 进行 派遣。 此 功 
能 由 Dispatch 模块 完成 ， 相 关 性 的 源 代码 片段 如 下 : 


// e203 exu disp.v 源 代码 片段 


// 只 要 源 操 作 数 1. 2. 3 中 的 任何 一 个 和 oITF 中 的 表 项 产生 了 RAW 相关 性 ， 则 意 昧 着 该 指令 和 前 序 的 
长 指令 存在 着 RAW 相关 性 


wire raw dep = ((oitfrd match disprsl) | 
(oitfrd match disprs2) | 
(oitfrd match disprs3)); 
只 要 结果 寄存 器 和 OTTF 中 的 表 项 产生 了 WAW 相关 性 ， 则 意味 着 该 指令 和 和 前 序 的 长 指令 存在 着 WAW 


相关 性 


wire waw dep = (oitfrd match disprd); 


// RAW 和 WAW 两 种 相关 性 都 是 需要 阻塞 派 遗 点 的 相关 性 


wire dep = raw dep | waw dep; 


wire disp condition - 


& (-dep)  //i&Z&'t RAW 和 WAW 相关 性 时 才 会 允许 派遣 
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assign disp i valid pos = disp condition & disp i valid; 
assign disp i ready - disp condition & disp i ready pos; 


从 以 上 介绍 可 以 看 出 ， 蜂 鸟 E200 对 于 数据 相关 性 造成 的 冲突 ， 只 采取 了 阻塞 流水 线 的 
方法 ， 而 并 没有 将 长 指令 的 结果 直接 快速 旁 路 给 后 续 的 待 派遣 指 令 。 使 用 该 方案 主要 是 因为 
处 理 器 的 设计 需要 秉承 折 中 取舍 的 哲学 ， 由 于 蜂 乌 E200 主要 侧重 于 低 功 耗 和 小 面积 ， 因 此 
没有 使 用 快速 劳 路 的 方法 。 


8.3.8 ALU 


蜂鸟 E200 的 ALU 单元 ， 包 括 $ 个 功能 子 单元 ， 各 自 的 功能 分 为 以 下 5 种 情况 。 
e 普通 ALU 运算 : 主要 负责 普通 的 ALU 指令 (逻辑 运算 ， 加 减法 ， 移 位 等 指令 ) 的 
执行 。 
e 访 存 地 址 生成 : 主要 负责 Load. Store 和 “A” 扩 展 指令 的 地 址 生成 。 
e 分 这 预测 解析 :二 要 负责 Branch 和 pepper Tr 
Jump 指令 的 结果 解析 和 执行 。 | 
e CSR 读 写 控制 : 主要 负责 CSR 指令 | 
的 执行 。 | 
。 多 周期 乘除 法 器 : 主要 负责 乘法 和 
除法 指令 的 执行 。 | 
如 图 8-5 所 示 ， 以 上 5 个 功能 子 单元 只 | 
负责 具体 指令 执行 的 控制 , 它们 均 共享 一 份 | 
实际 的 运算 数据 通路 ， 因 此 主要 数据 通路 的 
面积 开销 只 有 一 份 ， 这 也 是 蜂鸟 E200 3EcK 
低 功 耗 小 面积 实现 的 亮点 。 
1. 普通 ALU 运算 
普通 ALU 运算 (Regular-ALU) 模块 ， 
主要 负责 普通 的 ALU 指令 “〈 逻 辑 运算 ， 加 减法 和 移 位 等 指令 ) 的 执行 ， 其 要 点 如 下 。 
。 Regular-ALU 模块 的 相关 源 代 码 在 e200_opensource 目录 的 结构 如 下 。 关 于 GitHub 
网 站 上 e200_opensource 开源 项 目的 完整 代码 层次 结构 详解 ， 请 参见 第 17.1 节 。 


| e200 opensource 
|----rtl // 存放 RTL 的 目录 
|----e203 // E203 核 和 Soc 的 RTL 目录 
|----core // 存放 e203 Core If] RTL 代码 
|----e203 exu alu rglr.v // Regular-ALU 运算 模块 











图 8-5 蜂鸟 E200 处 理 器 核 的 ALU 框图 
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e Regular-ALU 模块 完全 由 组 合 逻 辑 组 成 ，Regular-ALU 模块 本 身 并 没有 运算 数据 通 
路 ， 其 主要 逻辑 即 根据 普通 ALU 指令 类 型 ， 发 起 对 共享 运算 数据 通路 的 操作 请 求 ， 
并 且 从 共享 的 运算 数据 通路 中 取 回 计算 结果 。 相 关 源 代码 片段 如 下 所 示 。 


// e203 exu alu rglr.v 源 代码 片段 


// 从 Info Bus 中 取出 相关 信息 


// 本 指令 的 第 二 个 源 操作 数 是 否 使 用 立即 数 
wire op2imm = alu i info ['E203 DECINFO ALU OP2IMM ]; 
// 本 指令 的 第 一 个 源 操作 数 是 否 使 用 PC 
wire oplpc = alu i info ['E203 DECINFO ALU OPIPC |]; 
// 将 操作 数 1 发 送 给 共享 的 运算 数据 通路 ， 如 果 使 用 PC 则 选择 PCc， 否 则 选择 源 寄存 器 1 
assign alu req alu opl = oplpc ? alu i pc : alu i rsl: 
// 将 操作 数 2 AREIRIESEBUGE BERGER. MREFA ARR, SUAR RAR 2 
assign alu req alu op2 = op2imm ? alu i imm : alu i rs2; 
// 根据 指令 的 类 型 ， 产 生 所 需 计算 的 操作 类 型 ， 将 其 发 送 给 共享 的 运算 数据 通路 
assign alu req alu add alu i info ['E203 DECINFO ALU ADD ] & (-nop); 
assign alu req alu sub alu i info ['E203 DECINFO ALU SUB ]; 
assign alu req alu xor alu i info ['E203 DECINFO ALU XOR ]; 
assign alu req alu sll alu i info ['E203 DECINFO ALU SLL 
assign alu req alu srl alu i info ['E203 DECINFO ALU SRL 
assign alu req alu sra alu i info ['E203 DECINFO ALU SRA 
assign alu req alu or A 


] ; 

] ; 

^3 ] ; 
alu i info ['E203 DECINFO ALU OR ]; 
assign alu req alu and alu i info ['E203 DECINFO ALU AND ]; 
assign alu req alu slt alu i info ['E203 DECINFO ALU SLT ]; 
assign alu req alu sltu ]; 
] 


assign alu req alu lui 


|ALU SLTU 


alu i info ['E203 DECINFO 
alu i info ['E203 DECINFO ALU 


LUI ]; 
// 将 共享 运算 数据 通路 的 结算 结果 取 回 
assign alu o wbck wdat = alu req alu res; 

2. 访 存 地 址 生成 

访 存 地 址 生成 〈Address Generation Unit, AGU) 模块 ， 主 要 负责 Load. Store 和 “A” 
扩展 指令 的 地 址 生成 ， 以 及 “A” 扩 展 指令 的 微 操作 拆 分 和 执行 。AGU 模块 相关 源 代码 在 
e200 opensource 目录 的 结构 如 下 。 关 于 GitHub 网 站 上 e200_opensource 开源 项 目的 完整 代 
码 层次 结构 详解 ， 请 参见 第 17.1 节 。 

e200 opensource 

|----rtl // 存放 RTL 的 目录 
| ----e203 // E203 Efl Soc ff] RTL 目录 
|----core // 存放 e203 Core fff] RTL 代码 
|[----e203 exu alu lsuagu.v // AGU 模块 

AGU 模块 由 于 是 整个 存储 器 访问 指令 执行 的 一 个 小 环节 ， 需 要 结合 完整 的 存储 器 访问 
微 架 构 进行 理解 。 在 第 11.4.2 节 中 有 对 AGU 模块 的 详细 解析 ， 本 章 在 此 不 做 将 述 ， 请 读者 
参见 第 11 章 了 解 更 多 信息 。 
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3. 分 支 预测 解析 

分 支 预 测 解 析 (Branch and Jump resolve, BJP) 模块 ， 主 要 负责 Branch 和 Jump 指令 的 
结果 解析 和 执行 。BJP 相关 源 代 码 在 e200_opensource 目录 的 结构 如 下 。 关 于 GitHub 网 站 上 
e200_opensource 开源 项 目的 完整 代码 层次 结构 详解 ， 请 参见 第 17.1 节 。 


e200 opensource 


|----rtl // 存放 RTL 的 目录 
|----e203 // E203 核 和 Soc 的 RTL 目录 
|----core // 存放 e203 Core 的 RTL 代码 
[----e203 exu alu bjp.v // BIP 模块 
BJP 模块 是 分 支 跳 转 指令 进行 交付 的 主要 依据 ， 在 第 93.1 节 中 有 对 BIP 模块 的 详细 解 
析 ， 本 章 在 此 不 做 装 述 ， 请 读者 参见 第 9 章 了 解 更 多 信息 。 
4. CSR 读 写 控制 
CSR 读 写 控制 (CSR-CTRL ) 模 块 ,主要 负责 CSR 读 写 指令 的 执行 ,包括 CSRRW、CSRRS、 
CSRRC、CSRRWI、CSRRSI 以 及 CSRRCI 指令 ， 其 要 点 如 下 。 
e CSR-CTRL 模块 的 相关 源 代 码 在 e200 opensource 目录 的 结构 如 下 。 关 于 GitHub 网 
站 上 e200_opensource 开源 项 目的 完整 代码 层次 结构 详解 ， 请 参见 第 17.1 节 。 
e200 opensource 


| = // 存放 RTL 的 目录 
|----e203 // E203 核 和 Soc 的 RTL 目录 
[=== 一 COFe // 存放 e203 Core 的 RTL 代码 
|7-7---e203 exu alu csrctrl.v // CSR-CTRL 模块 


e CSR-CTRL 模块 完全 由 组 合 逻辑 组 成 ， 其 根据 CSR 读 写 指令 的 类 型 产生 读 写 CSR 
寄存 器 模块 的 控制 信号 。 相 关 源 代码 片段 如 下 所 示 。 


// e203 exu alu csrctrl.v 源 代码 片段 


output csr ena, // 通 给 CSR 寡 存 器 模块 的 CSR 读 写 使 能 信号 
output csr wr en, / /CSR 与 操作 指示 信和 号 
output csr rd en, / /CSR 读 操作 指示 信和 号 


output [12-1:0] csr idx,//CSR 寄存 器 的 地 址 索引 


input  ['E203 XLEN-1:0] read csr dat, // 读 操作 从 CSR 寄存 器 模块 中 读 出 的 数据 
output ['E203 XLEN-1:0] wbck csr dat,// 写 操作 写 入 CSR 寄存 器 模块 的 数据 


ERETTE 


// 从 Info Bus 中 取出 相关 信息 


wire csrrw = csr i info['E203 DECINFO CSR CSRRW ]; 
wire csrrs = csf i info['E203 DECINFO CSR CSRRS ]; 
wire csrrc = csr i info['E203 DECINFO CSR CSRRC ]; 
wire rslimm = csr i info['E203 DECINFO CSR RS1IMM]; 
wire rslis0 = csr i info['E203 DECINFO CSR RS11S0]; 
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wire [4:0] zimm 
wire [11:0] csridx 


csr i info['E203 DECINFO CSR ZIMMM ]; 
csr i info['E203 DECINFO CSR CSRIDX]; 


// 生 成 操作 数 1， 如 果 使 用 立即 数 则 选择 立即 数 ， 否 则 选择 源 寄存 器 1 


wire ['E203 XLEN-1:0] csr opl = rslimm ? (27'b0,zimm) : csr i rsl}; 


// 根 据 指 令 的 信息 生成 读 操 作 指示 信和 号 
assign csr rd en = esr i valid & 
( 
(csrrw ? csr i rdwen : 1'b0) // the CSRRW only read when the destinat 
ion reg need to be writen 
| csrrs | csrrc // The set and clear operation always need to read CSR 


) ; 


// 根 据 指 令 的 信息 生成 写 操作 指示 信和 号 
| assign csr wr en - csr i valid & ( 
csrrw // CSRRW always write the original RS1 value into the CSR 
| ((csrrs | csrrc) & (-rslisO)) // for CSRRS/RC, if the RS is x 
0, then should not really write 


):; 





// 生 成 访问 CSR 宥 存 器 的 地 址 索引 


assign csr idx = csridx; 


// 生 成 通 给 CSR 寄存 器 模块 的 CSR 读 写 使 能 信号 


assign csr ena - csr o valid & csr o ready; 


// 生 成 写 操作 写 入 CSR 寡 存 器 模块 的 数据 
assign wbck csr dat = 
(('E203 XLEN(csrrw]) & csr opl) 
| (('E203 XLEN(csrrs]) & ( csr opl | read csr dat)) 
| (('E203 XLEN(csrrc)]) & ((-csr opl) & read csr dat)); 


5. 多 周期 乘除 法 器 
蜂鸟 E200 系列 对 于 乘除 法 指令 的 文 持 有 两 种 不 同 的 配置 。 一 种 配置 是 高 性 能 的 单 周 期 
乘法 器 和 独立 的 除法 器 ， 此 配置 会 在 第 8.3.9 节 介 绍 。 另 一 种 配置 是 使 用 低 性 能 小 面积 的 多 
周期 乘除 法 器 。 
对 于 多 周期 的 乘法 和 除法 器 实现 ， 先 对 其 知识 背景 进行 简介 如 下 。 
。 对 于 有 符号 整数 乘法 操作 ， 可 以 使 用 常用 的 Booth WIERDE. Aa EHER 
的 方法 ， 每 个 周期 使 用 加 法 器 对 部 分 积 进 行 累 加 ， 经 过 多 个 周期 的 迭代 之 后 得 到 最 
终 的 乘积 。 其 基本 硬件 原理 图 如 图 8-6 所 示 ， 从 而 实现 多 周期 乘法 器 。 
本 书 在 此 仅 对 乘法 器 实现 进行 简介 。 对 于 使 用 Booth 编码 算法 进行 乘法 器 设计 的 详细 
原理 ， 本 书 不 做 资 述 ， 请 读者 自行 查阅 相关 资料 学 习 。 
e 对 于 有 符号 整数 除法 操作 ， 可 以 使 用 常用 的 加 减 交 蔡 法 ， 然 后 使 用 迭代 的 方法 ， 每 
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个 周期 使 用 加 法 器 生成 部 分 余数 ， 经 过 多 个 周期 的 迭代 之 后 得 到 最 终 商 和 余数 。 其 
基本 硬件 原理 图 如 图 8-7 所 示 ， 从 而 实现 多 周期 除法 器 。 
本 书 在 此 仅 对 除法 器 实现 进行 简介 。 对 于 使 用 加 减 交替 法 进行 除法 器 设计 的 详细 原 
理 ， 本 书 在 此 不 做 獒 述 ， 请 读者 自行 查阅 相关 资料 学 习 。 






右 移 ] 位 
一 






加 法 璐 进位 





图 8-6 ”使 用 加 法 器 进行 达 代 的 乘法 器 实现 图 8-7 ”使 用 加 法 器 进行 运 代 的 除法 器 实现 


通过 对 多 周期 乘法 器 和 多 周期 除法 器 的 实现 进行 比较 可 以 发 现 ,， 其 结构 非常 类 似 ， 二 者 
同样 使 用 加 法 器 作为 主要 的 运算 通路 ， 使 用 一 组 寄存 器 保存 部 分 积 或 者 部 分 余数 ， 因 此 二 者 
可 以 进行 资源 复 用 ， 从 而 节省 面积 开销 。 

根据 上 述 的 设计 思路 ， 在 蜂鸟 E200 中 ， 多 周期 乘除 法 器 (MDV) 模块 是 ALU 的 一 个 
子 单元 ， 通 过 复 用 ALU 共享 数据 通路 中 的 加 法 器 ， 经 过 多 个 周期 完成 乘法 或 者 除法 操作 ， 
其 要 点 如 下 。 

。 MDV 模块 的 相关 源 代码 在 e200 opensource 目录 的 结构 如 下 。 关 于 GitHub 网 站 上 

e200 opensource 开源 项 目的 完整 代码 层次 结构 详解 ， 请 参见 第 17.1 节 。 


e200 opensource 


|----rtl // 存放 RTL 的 目录 
|----e203 // E203 核 和 Soc 的 RTL 目录 
| ----core // 存放 e203 Core 的 RTL 代码 
|----e203 exu alu muldiv.v // 多 周期 乘除 法 单元 


。 对 于 乘法 操作 ， 为 了 减少 乘法 操作 所 需 的 周期 数 ，MDYV 对 乘法 采用 基 4 CRadix-4) 
的 Booth 编码 ， 并 且 对 于 无 符号 乘法 进行 一 位 符号 扩展 后 统一 当 作 有 符号 数 进行 运 


算 ， 因 此 需要 17 个 迭代 周期 。 
。 对 于 除法 操作 ， 采 用 普通 的 加 减 交 蔡 法 ， 同 样 对 于 无 符号 乘法 进行 一 位 符号 扩展 后 
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统一 当 作 有 符号 数 进行 运算 ， 因 此 需要 33 个 迭代 周期 。 另 外 ， 由 于 加 减 交 替 法 迭代 
所 得 的 结果 存在 着 1 比特 精度 的 问题 ， 因 此 还 需要 额外 1 个 周期 判断 是 否 需 要 进行 
商 和 余数 的 矫正 ， 和 额外 2 个 周期 的 商 和 余数 矫正 (如 果 需 要 矫正 )， 最 终 得 到 完全 
准确 的 除法 结果 ， 总 共 最 多 需要 36 个 周期 。 

e MDV 模块 只 进行 运算 控制 ， 并 没有 自己 的 加 法 器 ， 加 法 器 与 其 他 的 ALU 子 单元 复 
用 共享 的 运算 数据 通路 ， 也 没有 自己 的 寄存 器 存储 部 分 积 或 者 部 分 余数 ， 寄 存 器 与 
AGU 单元 复 用 寄存 器 。 因 此 MDV 单元 本 身 仅 使 用 一 些 状态 机 进行 控制 和 选择 ， 硬 
件 实现 非常 节省 面积 ， 是 一 种 相当 低 功 耗 的 实现 。 

。 MDV 模块 的 相关 源 代码 片段 如 下 所 示 。 


// e203 exu alu muldiv.v 源 代 码 片 段 


// 从 Info Bus 中 取出 相关 信息 
wire i mul muldiv i info['E203 DECINFO MULDIV MUL ] 
wire i mulh muldiv i info[' E203 DECINFO MULDIV MULH |] 
wire i mulhsu muldiv i info[' E203 DECINFO MULDIV _ MULHSU]; 
wire i mulhu muldiv i info[' E203 DECINFO MULDIV MULHU ] 
wire i div muldiv i info['E203 DECINFO MULDIV DIV ] 
wire i divu muldiv i  info[' E203  DECINFO MULDIV DIVU ] 
wire i rem muldiv ài intel E203 DECINFO MULDIV REM ] 
wire i remu muldiv i info[' E203 . DECINFO  MULDIV REMU | 


B R SUM WW, WW g 


// 对 操作 数 进行 符号 位 扩展 
wire mul rsl sign - (i mulhu) ? l'b0 : muldiv i rs1['E203 XLEN-1]; 
wire mul rs2 sign = (i mulhsu | i mulhu) ? 1'bO : muldiv i rs2['E203 XLEN-1]; 


wire [32:0] mul opl = (mul rsl sign, muldiv i rsi}; 
wire [32:0] mul op2 = [mul rs2 sign, muldiv i rs2]; 


// 译 码 出 乘法 还 是 除法 操作 
wire i op mul - i mul | i mulh | i mulhsu | i mulhu; 
wire i op div = i div | i divu | i rem | i remu; 


// 使 用 统一 的 状态 机 控制 多 周期 乘法 或 者 除法 操作 
HIEPIOFLIIT BEP TT B I TP PB M LHP P g P BT PM E T P P B g P NT T P BT ES EELEE LT A 


EA 
// Implement the state machine for 
// (1) The MUL instructions 
/ / (2) The DIV instructions 


localparam MULDIV STATE WIDTH - 3; 
wire [MULDIV STATE WIDTH-1:0] muldiv state nxt; 
wire [MULDIV STATE WIDTH-1:0] muldiv state r; 


wire muldiv state ena; 


// State 0: The Oth state, means this is the 1 cycle see the operand inputs 
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localparam MULDIV STATE OTH = 3'd0; 

// State 1: Executing the instructions 
localparam MULDIV STATE EXEC = 3'dl; 

// State 2: Div check if need correction 
localparam MULDIV STATE REMD CHCK - S aZe 
// State 3: Quotient correction 


localparam MULDIV STATE QUOT CORR = 3'd3; 
// State 4: Reminder correction 
localparam MULDIV STATE REMD CORR - 3'd4; 


wire [MULDIV STATE WIDTH-1:0] state 0th nxt; 

wire [MULDIV STATE WIDTH-1:0] state exec nxt; 

wire [MULDIV STATE WIDTH-1:0] state remd chck nxt; 
wire [MULDIV STATE WIDTH-1:0] state quot corr nxt; 
wire [MULDIV STATE WIDTH-1:0] state remd corr nxt; 
wire state 0th exit ena; 

wire state exec exit ena; 

wire state remd chck exit ena; 

wire state quot corr exit ena; 

wire state remd corr exit ena; 


...... 


sirv gnrl dfflr #(MULDIV_STATE_WIDTH) muldiv state dfflr (muldiv state 
ena, muldiv state nxt, muldiv state r, clk, rst n); 


wire state exec enter ena - muldiv state ena & (muldiv state nxt -- MULDI 
V STATE EXEC); 


|| 


localparam EXEC CNT W 
localparam EXEC CNT 1 e'dl ; 


localparam EXEC CNT 16 = 6'd16; // 指 示 乘 法 需要 总 共 17 个 迭代 时 钟 周期 
localparam EXEC CNT 32 = 6'd32; // 指 示 乘 法 需要 总 共 33 个 迭代 时 钟 周期 


/ /实现 迭代 周期 的 计数 

wire[EXEC CNT W-1:0] exec cnt r; 

wire exec cnt set = state exec enter ena; 

wire exec cnt inc - muldiv sta is exec & (-exec last cycle); 

wire exec cnt ena = exec cnt inc | exec cnt set; 

// When set, the counter is set to 1, because the Oth state also counte 

d as Oth cycle 

wire[EXEC CNT W-1:0] exec cnt nxt = exec cnt set ? EXEC CNT 1 : (exec cnt 
rock T'U 

sirv gnrl dfflr #(EXEC CNT W) exec cnt dfflr (exec cnt ena, exec cnt nxt, 

exec cnt r, clk, rst n); 


6; 


Ii 
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wire [2:0] booth code = cycle Oth ? (muldiv i rs1[1:0],1'5b0) 
cycle 16th ? [mul rsi sign,part prdt lo r[0],part prdt sftl r} 


//booth code == 3'b000 = 0 
//booth code == 3'b001 = 1 
//booth code == 3'b010 = 1 
//booth code == 3'b011 = 2 
| //booth code == 3'b100 = -2 
//booth code == 3'b101 = -1 
//booth code -- 3'b110 = -1 
//booth code == 3'b111 = -0 
wire booth sel zero = (booth code == 3'b000) | (booth code == 3'b111); 
wire booth sel two = (booth code == 3'b011) | (booth code == 3'D100); 
wire booth sel one ("booth sel zero) & (-booth sel two); 
wire booth sel sub = booth code[2] 


ll 


. 
, 


// 生 成 乘法 每 次 迭代 所 需 加 法 或 者 减法 的 操作 数 ， 使 用 and-or 的 编码 方式 产生 并 行 选择 器 
wire ['E203 MULDIV ADDER WIDTH-1:0] mul exe alu op2 - 
(('E203 MULDIV ADDER WIDTH(booth sel zero)) & 'E203 MULDIV ADDER WIDT 
H'b0) 
| (('E203 MULDIV ADDER WIDTH(booth sel one )) & (mul rs2 sign,mul rs2 s 
ign,mul rs2 sign,muldiv i rs2]) 
| (('E203 MULDIV ADDER WIDTH(booth sel two )) & (mul rs2 sign,mul rs2 s 
ign,muldiv i rs2,1'b0]) 
wire ['E203 MULDIV ADDER WIDTH-1:0] mul exe alu opl - 
cycle Oth ? 'E203 MULDIV ADDER WIDTH'bO : (part prdt hi r[32],part p 
| rdt hi r[32],part prdt hi fr}; 


// 生 成 乘法 每 次 迭代 所 需 进 行 加 法 或 者 减法 的 指示 信号 
wire mul exe alu add = (~booth sel sub); 
wire mul exe alu sub - booth sel sub; 


// 生 成 除法 每 次 迭代 所 需 加 法 或 者 减法 的 操作 数 

wire [33:0] div exe alu opil = cycle Oth ? dividend lsft1[66:33] : (part r 
emd sftl r, part remd r[32:0]); 

wire [33:0] div exe alu op2 - divisor; 

wire div exe alu add = («prev quot); 

wire div exe alu sub = prev quot ; 


/ /判定 是 否 需 要 进行 商 和 余数 的 矫正 ， 此 判定 需要 用 到 加 法 器 ， 将 操作 数 发 送 给 共享 的 数据 通路 
wire [33:0] div remd chck alu res = muldiv req alu res[33:0]; 
wire [33:0] div remd chek alu opl = (part remd r[32], part remd r}; 


wire 
wire 
wire 


wire 
wire 
wire 
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[33:0] div remd chck alu op2 = divisor; 
div remd chck alu add = 1'b1; 
div remd chck alu sub = 1'b0; 


remd is 0 = -(|part remd r}; 
remd is neg divs - -(|div remd chck alu res); 
remd is divs = (part remd r == divisor[32:0]); 


assign div need corrct - i op div & ( 


((part remd r[32] ^ dividend[65]) & (-remd is 0)) 
| remd is neg divs 
| remd is divs 


remd inc quot dec - (part remd r[32] ^ divisor[33]); 


// 进 行商 的 矫正 所 需 的 加 法 运算 ， 将 操作 数 和 操作 类 型 发 送 给 共享 的 数据 通路 


assign div quot corr alu res = muldiv req alu res[33:0]; 


wire 
wire 
wire 
wire 


LIII 


[33:0] div quot corr alu opl = [part quot r[32], part quot rJ; 
[33:0] div quot corr alu op2 = 34'b1; 

div quot corr alu add - (-remd inc quot dec); 

div quot corr alu sub - remd inc quot dec; 


// 进 行 余数 矫正 所 需 的 加 法 运算 ， 将 操作 数 和 操作 类 型 发 送 给 共享 的 数据 通路 


assign div remd corr alu res = muldiv req alu res[33:0]; 


wire 
wire 
wire 
wire 


[33:0] div remd corr alu opl = {part remd r[32], part remd rJ; 
[33:10] div remd corr alu op2 = divisor; 

div remd corr alu add - remd inc quot dec; 

div remd corr alu sub - -remd inc quot dec; 


// 为 了 与 ALU 的 其 他 子 单元 共享 运算 数据 通路 ， 将 运算 所 需要 的 操作 数 发 送 给 运算 数据 通路 进行 运算 
// 操 作 数 1 


assign muldiv req alu opl 


h*c 


// 操 作 数 2 


assign muldiv req alu op2 


"9 


// 指 示 需 要 进行 加 法 操作 


assign muldiv req alu add = 


(req alu sell & mul exe alu add ) 
| (req alu sel2 & div exe alu add ) 
| (req alu sel3 & div quot corr alu add) 
| (req alu sel4 & div remd corr alu add) 
| (req alu sel5 &:-div remd chck alu add); 


// 指 示 需 要 进行 减法 操作 


assign muldiv req alu sub - 
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(req alu sell & mul exe alu sub ) 
| (req alu sel2 & div exe alu sub ) 
| (req alu sel3 & div quot corr alu sub) 
| (req alu sel4 & div remd corr alu sub) 
| (req alu sel5 & div remd chck alu sub); 


// 为 了 与 AGU 单元 共享 运算 数据 通路 ， 将 需要 存储 的 部 分 积 或 者 部 分 余数 发 送 给 运算 数据 通路 进行 寄存 
assign muldiv sbf 0 ena - part remd ena | part prdt hi ena; 
assign muldiv sbf O0 nxt i op mul ? part prdt hi nxt : part remd nxt; 


assign muldiv sbf 1 ena 
assign muldiv sbf 1 nxt 


part quot ena | part prdt lo ena; 
i op mul ? part prdt lo nxt : part quot nxt; 


assign part remd r = muldiv sbf 0 r; 
assign part quot r = muldiv sbf 1 r; 
assign part prdt hi r = muldiv sbf 0 r; 
assign part prdt lo r - muldiv sbf 1 r; 


6. 运算 数据 通路 
运算 数据 通路 模块 是 ALU 真正 用 于 计算 的 数据 通路 模块 。 运 算数 据 通 路 模块 的 相关 源 


代码 在 e200 opensource 目录 的 结构 如 下 。 关 于 GitHub 网 站 上 e200 opensource 开源 项 目的 
完整 代码 层次 结构 详解 ， 请 参见 第 7.178. 


e200 opensource 
|----rtl // 存放 RTL 的 目录 
| ----e203 // E203 核 和 Soc If] RTL 目录 
| ----core // 存放 e203 Core 的 RTL 代码 
|----e203 exu alu dpath.v // 运算 数据 通路 模块 


运算 数据 通路 的 功能 比较 简单 ， 它 被 动 地 接受 其 他 ALU 子 单元 的 请 求 进行 具体 运算 ， 然 
后 将 计算 结果 返回 给 其 他 子 单元 运算 数据 通路 ， 相 关 源 代码 片段 如 下 所 示 。 


// e203 exu alu dpath.v 源 代码 片段 


// 不 同 的 子 单元 公用 ALU 的 运算 数据 通路 
assign { 

mux opl 
,mux op2 
,Oop cmp eq 
,op cmp ne 
,op cmp lt 
,op cmp gt 
,op cmp ltu 
,Oop cmp gtu 
} 
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// AB Regular-ALU 子 单元 的 运算 请 求 
Cf DPATH MUX WIDTH { alu req alu }} & 1 


EE 


)) 
// RA BJP 子 单元 的 运算 请 求 

| ((DPATH MUX WIDTH(bjp req alu)) & 1 
bjp req alu opl 
:bjp req alu op2 
,bjp req alu cmp eq 
:bjp req alu cmp ne 
:bjp req alu cmp lt 
,;bjp req alu cmp gt 
:bjp req alu cmp ltu 
,bjp req alu cmp gtu 


)) 
// 来 自 AGU 模块 的 运算 请 求 
| ((DPATH MUX WIDTH{agu req alu)) & I 


// 复 用 “ 移 位 器 ” 


wire ['E203 XLEN-1:0] shifter in1; 
wire [5-1:0] shifter in2; 
wire ['E203 XLEN-1:0] shifter res; 


wire op shift = op sra | op sll | op srl; 


// 为 了 节省 面积 开销 ， 将 右 移 统一 转化 为 左 移 操作 


assign shifter inl = ('E203 XLEN(op shift]) & 
( 
(op sra | op srl) ? 
{ 
shifter opl[00],shifter opl[01],shifter opl[02],shifter op1[03], 
shifter opl[04],shifter opl[05],shifter opl1[06],shifter op1[07], 
shifter opl1[08],shifter opl1[09],shifter opl[10],shifter opl[11], 
shifter opl[12],shifter opl[13],shifter opl[14],shifter opl[15], 
shifter opl[16],shifter opl[17],shifter opl[18],shifter op1[19], 
shifter opl[20],shifter opl[21],shifter opl[22],shifter op1[23], 
shifter opl[24],shifter opl[25],shifter opl[26],shifter opl1[27], 
shifter op1[28],shifter opl1[29],shifter op1[30],shifter op1[31] 
) : shifter opl 
); 
assign shifter in2 = (5[op shift}} & shifter op2[4:0]; 


156 | 一 鼓 作 气 ， 执 行 力 是 关键 一 一 执行 


assign shifter res - (shifter inl «« shifter in2); 


wire ['E203 XLEN-1:0] sll res 
wire ['E203 XLEN-1:0] srl res 
{ 
shifter res[00],shifter res[01],shifter res[02],shifter res[03], 
shifter res[04],shifter res[05],shifter res[06],shifter res[07], 
shifter res[08],shifter res[09],shifter res[10],shifter res[11], 
shifter res[12],shifter res[13],shifter res[14],shifter res[15], 
shifter res[16],shifter res[17],shifter res[18],shifter res[19], 
shifter res[20],shifter res[21],shifter res[22],shifter res[23], 
shifter res[24],shifter res[25],shifter res[26],shifter res[27], 
shifter res[28],shifter res[29],shifter res[30],shifter res[31] 
} 7 


shifter res; 


// 复 用 “ 异 或 逻辑 门 ” 
assign xorer inl = ('E203 XLEN(xorer op}} & misc opl; 
assign xorer in2 = ('E203 XLEN(xorer op}} & misc op2; 


wire ['E203 XLEN-1:0] xorer res - xorer inl ^ xorer in2; 


wire neq = (|xorer res); 
wire cmp res ne = (op cmp ne & neq); 
// It is Equal if it is not Non-Equal 
wire cmp res eq = op cmp eq & (-neq); 


LEETE 


// 复 用 “加 法 器 ” 


// Make sure to use logic-gating to gateoff the 
assign adder inl = ('E203 ALU ADDER WIDTH(adder addsub)) & (adder opl); 
assign adder in2 = ('E203 ALU ADDER WIDTH(adder addsub)] & (adder sub ? ( 
-adder op2) : adder op2); 
assign adder cin - adder addsub & adder sub; 


assign adder res = adder inl + adder in2 + adder cin; 


// 生 成 最 终 的 运算 数据 通路 结果 ， 使 用 and-or 的 编码 方式 生成 多 路 选择 器 
wire ['E203 XLEN-1:0] alu dpath res - 


(('E203 XLEN(op or 1) & orer res ) 
| (('E203 XLEN(op and }} & ander res) 
| (('E203 XLEN(op xor )) & xorer res) 
| (('E203 XLEN(op addsub )) & adder res['E203 XLEN-1:0]) 
| (('E203 XLEN(op srl } & srl res) 
| (('E203 XLEN(op sll }} & sll res) 
| (('E203 XLEN(op sra }} & sra res) 
| (('E203 XLEN(op mvop2 )) & mvop2 res) 
| (('E203 XLEN{op slttu )]] & slttu res) 


).3.9 
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| ({'E203 XLEN{op max | op maxu | op min | op minu}} & maxmin res) 


L 
, 


/ /实现 AGU 和 MDV 模块 共享 的 两 份 33 位 宽 的 寡 存 器 


sirv gnrl dffl $(33) sbf 0 dffl (sbf 0 ena, sbf O0 nxt, sbf 0 r, 
sirv gnrl dffl $(33) sbf 1 dffl (sbf 1 ena, sbf 1 nxt, sbf 1 r, 


// 寡 存 器 的 使 能 信号 选择 来 自 MDV 还 是 AGU 模块 
assign sbf 0 ena = 
'ifdef E203 SUPPORT SHARE MULDIV //[ 
muldiv req alu ? muldiv sbf O0 ena : 
'endif//E203 SUPPORT SHARE MULDIV) 
agu sbf 0 ena; 
assign sbf 1 ena = 
'ifdef E203 SUPPORT SHARE MULDIV //{ 
muldiv req alu ? muldiv sbf 1 ena : 
'endif//E203 SUPPORT SHARE MULDIV) 
agu sbf 1 ena; 


// 宥 存 器 的 写 入 数据 选择 来 自 MDV 还 是 AGU 模块 
assign sbf 0 nxt - 
'ifdef E203 SUPPORT SHARE MULDIV //í( 
muldiv req alu ? muldiv sbf 0 nxt : 
'endif//E203 SUPPORT SHARE MULDIV) 
(1'b0,agu sbf 0 nxt}; 
assign sbf 1 nxt = 
'ifdef E203 SUPPORT SHARE MULDIV //( 
muldiv req alu ? muldiv sbf 1 nxt : 
'endif//E203 SUPPORT SHARE MULDIV) 
(1'b0,agu sbf 1 nxt}; 


// 将 共享 寡 存 器 的 值 送 给 AGU 模块 
assign agu sbf 0 r = sbf 0 r['E203 XLEN-1:0]; 
assign agu sbf 1 r = sbf 1 r['E203 XLEN-1:0]; 


// 将 共享 寡 存 器 的 值 送 给 MDV 模块 

'ifdef E203 SUPPORT SHARE MULDIV //{ 
assign muldiv sbf 0 r = sbf 0 r; 
assign muldiv sbf 1 r = sbf 1 r; 

'endif//E203 SUPPORT SHARE MULDIV) 


高 性 能 乘除 法 


clik); 
Clk); 


蜂 乌 E200 系列 对 于 乘除 法 指令 的 文 持 有 两 种 不 同 的 配置 。 除 了 第 8.3.8 节 中 介绍 过 的 
小 面积 多 周期 乘除 法 器 之 外 ， 另 外 一 种 配置 是 高 性 能 的 单 周 期 乘法 器 和 独立 的 除法 器 。 
如 果 配 置 了 高 性 能 版 本 的 乘除 法 器 ， 则 如 图 8-8 所 示 ， 乘 法 器 将 使 用 单 周 期 的 独立 乘法 
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器 位 于 流水 线 的 第 二 级 ;除法 融 仍 然 使 用 多 周期 除法 器 ， 但 是 不 再 与 ALU 复 用 共享 的 运算 
数据 通路 ， 而 是 作为 长 指令 具有 单独 的 除法 器 单元 。 








HARKER EAR | EXU. 





图 8-8 ”蜂鸟 E200 配置 高 性 能 的 乘除 法 单元 


由 于 开源 的 E203 处 理 器 核 没 有 配置 此 高 性 能 版 本 ， 因 此 对 于 此 配置 的 代码 实现 ， 本 书 
TEC ACRAS. 


8.3.10 FART 


蜂 乌 E200 系列 也 支持 RISC-V 架构 的 “F” 和 “D” 扩 展 子 集 ， 分 别 对 应 单 精度 浮 点 和 
双 精 度 浮 点 指令 子 集 。 

浮 点 指令 由 FPU (Floating Point Unit〉 运 算 单 元 文 持 。 如 果 配 置 了 FPU， 则 如 图 8-9 所 示 ， 
FPU 作为 长 指令 具有 单独 的 运算 单元 。 另 外 ，FPU 还 有 独立 的 通用 浮 点 寄存 器 组 。 根据 RISC-V 
架构 定义 ， 如 果 文 持 “F” 和 “D” 模 块 化 扩展 子 集 ， 则 需要 男 外 一 个 独立 的 浮 点 寄存 器 组 ， 包 
含 32 个 通用 浮 点 寄存 器 。 如 果 仅 使 用 下 模块 的 浮 点 指令 子 集 ， 则 每 个 通用 浮 点 寄存 器 的 宽度 为 
32 位 ;如果 使 用 了 D 模块 的 浮 点 指令 子 集 ， 则 每 个 通用 浮 点 寄存 器 的 宽度 为 64 位 。 

蜂鸟 E200 的 FPU 实现 十 分 高 效 ， 具 有 以 下 亮点 。 
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。 独立 的 时 钟 域 和 电源 域 ， 在 不 使 用 之 时 可 以 目 动 关闭 各 模块 时 钟 ， 以 节省 功 耗 。 

。 独立 的 电源 域 , 在 不 使 用 浮 点 单元 之 时 可 以 软件 控制 关闭 整个 FPU 的 电源 , 以 市 省 功 耗 。 

。 单 精度 和 双 精 度 浮 点 指令 复 用 数据 通路 , 在 同时 支持 单 精度 和 双 精 度 浮 点 指令 时 , 硬件 
开销 仅 为 双 精 度 浮 点 运算 单元 的 开销 ， 而 不 是 分 别 的 单 精度 和 双 精 度 两 套 人 硬件 开销 。 


EXU 





" i Tap TA 
Fr Xi: ] > 


8-9 MES E200 配置 FPU 支持 浮 点 指令 
由 于 开源 的 E203 处 理 器 核 没 有 配置 FPU， 因 此 对 于 FPU 的 代码 实现 ， 本 书 在 此 不 做 装 述 。 


B.3.11 ws 交付 


如 第 8.3.2 节 所 述 , 指令 交付 功能 也 在 EXU 单元 完成 。 由 于 将 交付 的 功能 阐述 清楚 需要 
较 多 篇 幅 ， 因 此 本 书 单 设 一 章 对 其 进行 详 述 ， 请 参见 第 9 章 了 解 有 关 交 付 的 详细 介绍 。 


8.3.12 与 回 


如 第 8.3.2 WATR, 指令 结果 写 回 功能 也 在 EXU 单元 完成 。 由 于 阐述 清楚 写 回 功能 需要 
较 多 篇 幅 ， 因 此 本 书 单 设 一 章 对 其 进行 详 述 ， 请 参见 第 10 章 了 解 有 关 写 回 的 详细 介绍 。 
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8.3.13 ” 协 处 理 怖 扩展 


可 扩展 性 是 RISC-V 架构 最 大 的 亮点 之 一 。 如 图 8-2 所 示 ， 蜂 鸟 E200 处 理 器 核 的 执行 
阶段 也 支持 协 处 理 器 扩展 指令 。 由 于 协 处 理 器 扩展 的 功能 阐述 清楚 需要 较 多 篇 幅 ， 因 此 本 书 
单 设 一 章 对 其 进行 详 述 ， 请 参见 第 16 章 了 解 有 关 协 处 理 器 扩展 的 详细 介绍 。 


8.3.14 小结 


H1 T 3€ 5 E200 是 一 种 两 级 流水 线 的 微 架 构 ， 其 “执行 ”阶段 的 EXU 单元 事实 上 包含 了 
经 典 五 级 流水 线 中 对 应 的 “ 译 码 ”“ 执 行 ”“ 写 回 ” 功 能 ， 还 包含 了 “交付 ”功能 ， 因 此 EXU 
单元 是 蜂鸟 E200 处 理 器 核 的 心脏 。 

为 了 能 够 达到 超 低 功 耗 且 性 能 优良 的 设计 目标 ， 蜂 鸟 E200 研发 团队 依据 多 年 业界 一 流 
CPU 研发 的 经 验 ， 设 计 了 精巧 的 微 架构 ， 采 用 了 诸多 的 设计 技巧 。 读 者 可 以 借助 本 章 的 文 
字 介绍 和 关键 代码 片段 解析 ， 结 合 GitHub 上 的 完整 源 代码 进行 学 习 ， 从 而 能 够 透彻 地 理解 
蜂鸟 E200 的 设计 精髓 。 
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《 谏 太宗 十 思 下 》 中 有 云 :“ 善 始 者 实 繁 ， 克 终 者 新 寡 ”*。 意 思 是 认真 开始 做 一 件 事 的 人 
很 多 , 但 是 能 够 坚持 到 最 后 认真 完成 的 人 却 守 寥 无 几 。 此 古语 让 人 联想 到 指令 在 流水 线 中 的 
行为 ， 指令 从 存储 器 中 读 取出 来 进入 流水 线 开始 执行 , 但 却 并 不 是 每 一 条 指令 都 能 够 被 真正 
的 “RE Ar SA 

本 章 将 简要 介绍 处 理 器 交付 的 功能 和 第 见 的 策略 ， 并 介绍 蜂 乌 E200 处 理 器 核 交 付 单元 
的 微 架 构 和 源码 分 析 。 


9.1 EEE 


9.1.1 ”处理 器 交付 、 取 消 、 冲 刷 简 介 


谈 及 交付 《Commit)， 读 者 可 能 比较 卫生， 如 第 6 章 中 所 述 ， 在 经 典 的 五 级 流水 线 模型 
中 ， 处 理 器 的 流水 线 分 为 取 指 、 译 码 、 执 行 、 访 存 和 写 回 ， 其 中 并 没有 提 及 “交付 ”。 那 么 
“交付 ”又 有 何 功能 呢 ? 

流水 线 中 的 指令 被 “交付 ”， 是 指 该 指令 不 再 是 预测 执行 (Speculative) 状态 。 它 被 判定 
为 可 以 真正 地 在 处 理 器 中 被 执行 ， 可 以 对 处 理 器 状态 产生 有 影响。 与 “交付 ”相反 的 一 个 名 词 
概念 是 “取消 (Cancel)”， 表 示 该 指令 最 后 被 判定 为 需要 取消 。 可 能 初学 的 读者 还 是 无 法 理 
解 ， 下 面 列举 两 种 常见 的 情形 阐述 “交付 ”的 功能 。 

(1) 情形 一 


如 第 7 章 中 所 述 ， 为 了 提高 处 理 器 的 性 能 ， 分 支 跳 转 指令 可 以 以 一 种 预测 的 形式 执行 ， 
分 文 跳 转 指令 是 否 真正 需要 产生 跳 转 可 能 需要 经 过 “执行 ”阶段 之 后 才能 够 被 确定 。 
如 第 6 章 中 所 述 ， 指 令 在 流水 线 中 是 以 “流水 ”的 形式 执行 ， 以 经 典 的 五 级 流水 线 
模型 为 例 ， 第 一 条 指令 在 “执行 ”阶段 ， 第 二 条 指令 便 处 于 “ 译 码 ”阶段 。 如 果 第 
一 条 指令 是 一 条 预测 的 分 支 跳 转 指令 ， 那 么 第 二 条 指令 (及 其 后 续 指 令 ) 便 处 于 一 
种 预测 执行 的 状态 。 

在 第 一 条 分 支 跳 转 指令 是 否 真正 需要 跳 转 经 过 “执行 ”阶段 确定 之 后 ， 如 果 发 现 预 
测 错误 了 ， 便 意味 着 第 二 条 指令 〈 及 其 后 续 指 令 ) 都 需要 被 取消 掉 并 放弃 执行 ， 如 
果 发 现 预测 成 功 了 ， 便 意味 着 第 二 条 指令 〈 及 其 后 续 指 令 ) 不 需要 被 取消 掉 ， 可 以 
真正 执行 ， 解 除了 预测 执行 状态 ， 可 以 被 真正 地 交付 一 一 即 被 “交付 ” 掉 。 





(2) 情形 二 


同上 ， 以 经 典 的 五 级 流水 线 模型 为 例 ， 第 一 条 指令 在 “执行 ”阶段 ， 第 二 条 指令 便 
处 于 “ 译 码 ”阶段 。 第 一 条 指令 遭遇 了 中 断 或 者 异常 (参见 第 13 章 了 解 更 多 中 断 和 
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异常 的 信息 ), 那么 第 二 条 指令 和 后 续 的 指令 便 都 需要 被 取消 而 放弃 执行 (无 法 被 “ 交 
ARI". 而 被 “取消 ” 掉 )。 
谈 及 处 理 器 中 的 “交付 ”还 需 介绍 男 外 一 个 常见 的 概念 |o WE 
述 的 两 种 情形 ， 当 处 理 器 流水 线 需要 将 没有 XAT” WERTER POA” Mij, MRE 
成 “流水 线 冲 刷 ” 一 一 就 像 水 流 一 样 将 流水 线 重新 冲刷 干净 ， 之 后 重新 开始 取 新 的 指令 。 


9.1.2 ”处 理 器 交付 弟 见 实现 策略 


处 理 器 “交付 ”的 实现 非常 依赖 具体 的 微 架 构 ， 和 冀 见 的 实现 策略 简 述 如 下 。 
CD 不 管 是 流水 线 级 数 少 的 简单 处 理 器 核 ， 还 是 流水 线 级 数 非常 多 的 高 级 超标 量 处 理 器 
核 , “交付 ”都 通常 为 顺序 判定 ， 理 论 上 只 有 前 一 条 指令 完成 了 “交付 ”之 后 ， 才 会 轮 到 后 
一 条 指令 的 “交付 ”。 
(2) 影响 指令 “交付 ”的 因素 通常 包括 以 下 情形 。 
e 中断， 异常， 分 文 预 测 指 令 。 
这 些 情形 往往 会 造成 “流水 线 冲 刷 ， 即 将 后 续 所 有 的 指令 流 都 取消 掉 。 
e 在 有 的 指令 集 架 构 中 ( 辟 如 ARM), WFE (Conditional Code). 
因此 对 于 每 条 指令 ， 只 有 其 条 件 码 满足 条 件 为 真 才 会 “交付 ”， 人 否则 会 被 “取消 ”( 只 
“取消 ” 它 自己 ， 并 不 会 产生 造成 流水 线 冲刷 而 取消 后 续 所 有 指令 )。 
(3) 处 理 器 的 微 架构 可 以 选择 一 个 周期 “交付 ”一 条 指令 (性 能 较 低 ) 或 者 一 个 周期 “ 交 
付 ” 多 条 指令 (性 能 较 高 )。 
(4) 在 不 同 的 微 架 构 中 ,“ 交 付 ” 可 以 在 不 同 的 流水 线 位 置 完成 ， 没 有 绝对 的 标准 ， 第 
见 的 策略 有 如 下 。 
e 在 “执行 ”阶段 进行 “交付 ”。 
在 流水 线 的 执行 阶段 ， 理 论 上 已 经 可 以 将 分 支 预 测 指令 的 结果 解析 完成 ， 因 此 有 的 
微 架 构 将 “交付 ”功能 在 “执行 ”阶段 完成 。 
e 在 “ 写 回 ”阶段 进行 “交付 ”。 
由 于 有 的 指令 需要 多 个 周期 才能 写 回 结果 ， 并 可 能 产生 错误 异常 ， 因 此 有 的 微 架构 
将 “交付 ”功能 放 在 “ 写 回 ”阶段 进行 。 
e 在 重 排序 交付 队列 (Re-Order Commit Queue) 中 进行 。 
对 于 高 性 能 的 超标 量 处 理 器 而 言 , 往往 是 乱 序 执行 乱 序 写 回 (参见 第 8.1.5 节 了 解 有 
关 指 令 发 射 、 派 遗 、 执 行 和 写 回 顺序 的 更 多 信息 )， 写 回 往往 会 使 用 ROB. (Re-Order 
Buffer) 或 者 纯 物 理 寄存 器 的 方式 ， 相 应 地 ， 往往 会 配备 一 个 较 深 的 重 排序 交付 队列 
用 来 缓存 乱 序 执行 的 指令 信息 ， 并 对 其 按 序 进行 “交付 ”。 
蜂鸟 E200 处 理 器 核 的 “交付 ”“ 取 消 ” 和 “冲刷 ”实现 机 制 在 第 9.3 节 予 以 详细 介绍 。 
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9.2 Brillen 架构 特点 对 于 交付 的 简化 


RISC-V 指令 集 架构 具有 两 个 显著 的 特点 ， 可 以 大 幅 简 化 “交付 ”的 硬件 实现 。 

。 指令 没有 条 件 码 ， 因 此 不 需要 处 理 单条 指令 “取消 ”的 情形 。 

。 所 有 的 运算 指令 都 不 会 产生 异常 。 这 是 RISC-V 很 有 意思 的 特点 ， 大 多 数 的 指令 集 
架构 都 会 规定 “除法 指令 除 以 零 ” 为 错误 异常 ， 浮 点 指令 也 会 有 奋 干 错误 异常 。 但 
是 RISC-V 规定 这 些 运算 指令 一 概 不 产生 错误 异常 ， 因 此 在 硬件 实现 上 无 须 担 心 多 
周期 指令 写 回 结果 后 会 产生 错误 异常 。 

Zx LE. Æ RISC-V 架构 的 处 理 器 核 中 只 需要 处 理 如 下 两 类 流水 线 冲 刷 情形 。 

。 分 文 预测 指令 错误 预测 造成 的 后 续 指 令 流 取消 。 请 参见 第 7 章 了 解 更 多 RISC-V 分 
支 指令 的 信息 。 

。 中 断 和 异常 造成 的 后 续 指 令 流 取 消 。 请 参见 第 13 章 了 解 更 多 RISC-V 中 断 和 异常 的 信息 。 


9.3 ESI 处 理 器 交付 硬件 实现 


基于 上 述 分 析 ， 蜂 鸟 E200 处 理 器 将 “交付 ”安排 在 “执行 ”阶段 ， 如 图 9-1 所 示 。 对 
于 每 一 条 指令 而 言 ， 在 蜂鸟 E200 处 理 器 核 的 流水 线 中 。 








EAI (扩展 协 处 理 器 


图 9-1 蜂鸟 E200 处 理 器 核 的 “交付 ”功能 示意 图 
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。 只 要 前 序 的 指令 没有 发 生 “ 分 支 预 测 错 误 ”" “中断” 或 者 “异常 ”， 那 么 就 可 以 判定 
此 条 指令 能 够 被 成 功 地 “交付 ”。 

。 注意 : 对 于 分 支 预测 错误 的 分 文 指 令 目 身 和 遭遇 了 中 断 或 者 异常 的 指令 自身 而 言 ， 
仍然 是 属于 成 功 “交付 ”的 指令 ， 因 为 它们 上 自身 已 经 被 真正 执行 且 对 处 理 器 的 状态 
真正 地 产生 了 影 啊 。 


9.3.1 分支 预测 指令 的 处 理 


如 第 7 章 中 所 述 ， 在 蜂鸟 E200 处 理 器 核 IFU 单元 中 进行 预测 的 分 支 指令 主要 为 带 条 件 
跳 转 (Conditional Branch) 指令 类 型 。 

。 beq〔 两 个 整数 操作 数 等 于 则 跳 转 )。 

。 bne《〈 两 个 整数 不 相等 则 跳 转 )。 

。 blt〈 第 一 个 有 符号 数 小 于 第 二 个 有 符号 数 则 跳 转 )。 

e btu 《第 一 个 无 符号 数 小 于 第 二 个 无 符号 数 则 跳 转 )。 

e bge〈 第 一 个 有 符号 数 大 于 等 于 第 二 个 有 符号 数 则 跳 转 )。 

。 bgeu〈 第 一 个 无 符号 数 大 于 等 于 第 二 个 无 符号 数 则 跳 转 )。 

其 相关 设计 要 点 如 下 。 

。 ÆRES, E200 处 理 器 的 IFU 单元 中 对 以 上 带 条 件 跳 转 指令 均 采 取 静 态 预 测 ， 即 如 果 
是 同 后 跳 转 ， 则 预测 为 跳 〈Taken); 如 果 是 向 前 跳 转 ， 则 预测 为 不 跳 (Not Taken). 
参见 第 7.1.4 市 了 解 更 多 静态 预测 的 信息 。 

。 这 些 条 件 跳 转 指令 需要 经 过 “比较 ”运算 才能 确定 最 终 是 否 真 的 需要 跳 转 ， 而 “ 比 
较 ” 运 算 需 由 “执行 ”阶段 的 ALU 完成 。 相 关 源 代码 在 e200 opensource 目录 的 结 
构 如 下 。 关 于 GitHub 网 站 上 e200 opensource 开源 项 目的 完整 代码 层次 结构 详解 ， 
请 参见 第 17.1 节 。 


e200 opensource 
|----rti // 存放 RTL 的 目录 
[----e203 // E203 核 和 Soc 的 RTL 目录 
|----core // 存放 e203 Core ff] RTL 代码 
[=----e203_exu alu bjp.v  // ALU 的 分 支 跳 转 指令 比较 子 模块 


。 e203 exu alu bjp 模块 仅 处 理 必 要 的 控制 ， 真 正 “ 比 较 ” 操 作 复 用 的 是 ALU 的 数据 
通路 ， 因 此 并 没有 额外 的 硬件 开销 。 相 关 源 代码 片段 如 下 所 示 。 
// e203 exu alu bjp.v 源 代码 片段 


EEE 


wire bjp i bprdt = bjp i info ['E203 DECINFO BJP BPRDT ]; 
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/ /根据 条 件 跳 转 指 令 的 类 型 ， 向 ALU 运算 数据 通路 发 起 运算 请 求 
assign bjp req alu cmp eq = bjp i info ['E203 DECINFO BJP BEQ 
assign bjp req alu cmp ne - bjp i info ['E203 DECINFO BJP BNE 
assign bjp req alu cmp lt = bjp i info ['E203 DECINFO BJP BLT 
assign bjp req alu cmp gt - bjp i info ['E203 DECINFO BJP BGT ; 
assign bjp req alu cmp ltu = bjp i info ['E203 DECINFO BJP BLTU ]; 
assign bjp req alu cmp gtu - bjp i info ['E203 DECINFO BJP BGTU ]; 


* 
, 
E 
, 


LI 
, 


assign bjp o valid = bjp i valid; 
assign bjp i ready bjp o ready; 


// 将 预测 的 跳 转 结果 发 送 给 交付 模块 
assign bjp o cmt prdt = bjp i bprdt; 


// 将 真实 的 跳 转 结果 发 送 给 交付 模块 
// 如 果 是 无 条 件 跳 转 (JUMP) 指令 则 一 定 会 跳 
// 如 果 是 条 件 跳 转 (Conditional Branch) 则 会 使 用 ALU 运算 数据 通路 进行 比较 运算 
// 的 结果 | 


assign bjp o cmt rslv = jump ? 1'bl : bjp req alu cmp res; 


// e203 exu alu dpath.v 源 代码 片段 


/ /不 同 的 模块 公用 ALU 的 运算 数据 通路 
assign 1 

mux opl 
,mux op2 
,Op cmp eq 
,op cmp ne 
rop emp lt 
,Op cmp gt 
,Oop cmp ltu 
:op_ cmp gtu 
) 


// 来 自 ALU 的 运算 请 求 
((DPATH MUX WIDTH(alu req alu}} & { 


)) 
// XA e203 exu alu bjp 模块 的 运算 请 求 

| ((DPATH MUX WIDTH([bjp req alu)) & ( 
bjp req alu opl 
,bjp req alu op2 
,bjp req alu cmp eq 
,bjp req alu cmp ne 
,bjp req alu cmp 1t 
,bjp req alu cmp gt 
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,Djp req alu cmp ltu 
,bjp req alu cmp gtu 


)) 
// 来 自 AGU 模块 的 运算 请 求 


| 


((DPATH MUX WIDTH[agu req alu]) & { 


// 进行 比较 计算 


// 复 用 “ 异 或 逻辑 门 ”进行 相等 比较 运算 


assign xorer inl = ('E203 XLEN{xorer op}} & misc opl; 
assign xorer in2 = ('E203 XLEN(xorer op}} & misc op2; 


wire ['E203 XLEN-1:0] xorer res - xorer inl ^ xorer in2; 


wire neq = (|xorer res); 
wire cmp res ne = (op cmp ne & neq); 


// It is Equal if it is not Non-Equal 


wire cmp res eq = op cmp eq & (-neg); 


// 复 用 “加 法 器 ”进行 比 大 小 运算 


// Make sure to use logic-gating to gateoff the 
assign adder inl = ('E203 ALU ADDER WIDTH(adder addsub)) & (adder op1); 


assign adder in2 = ('E203 ALU ADDER WIDTH[adder addsub)) & (adder sub ? ( 


-adder op2) : adder op2); 
assign adder cin - adder addsub & adder sub; 


assign adder res = adder inl + adder in2 + adder cin; 


wire 
wire 


wire 
wire 
wire 


// It is Less-Than if the adder result is negative 
cmp res lt = op cmp lt 5 adder res['E203 XLEN]; 
cmp res ltu = op cmp ltu & adder res['E203 XLEN]; 

// It is Greater-Than if the adder result is postive 
opl gt op2 = (-adder res['E203 XLEN]); 

cmp res gt = op cmp gt  & opi gt op2; 

cmp res gtu = op cmp gtu & opl gt op2; 


assign cmp res - cmp res eq 


| cmp res ne 

| cmp res lt 

| cmp res gt 

| cmp res ltu 
| cmp res gtu; 
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// 将 比较 器 的 计算 结果 返回 给 e203 exu alu bjp 模块 


assign bjp req alu cmp res = cmp res; 


。 ALU 在 计算 出 是 否 需 要 跳 转 的 结果 之 后 ， 发 送 给 “交付 ”模块 。“ 交 付 ”模块 则 根 
据 预 测 的 结果 和 真实 的 结果 进行 判断 。 如 果 预 测 和 真实 的 结果 相符 ， 则 意味 着 预测 
成 功 ， 不 会 进行 流水 线 冲刷 反之 ， 则 预测 失败 需要 进行 流水 线 冲 刷 。 相 关 源 代码 
在 e200_opensource 目录 的 结构 如 下 。 关 于 GitHub 网 站 上 e200 opensource 开源 项 目 
的 完整 代码 层次 结构 详解 ， 请 参见 第 17.1 节 。 
| e200 opensource 
| |----rtl // 存放 RTL 的 目录 
| | ----e203 // E203 核 和 Soc ff] RTL 目录 
|----core // 存放 e203 Core ff] RTL 代码 


|----e200 exu commit.v // 交付 模块 
|----e200 exu branchslv.v // 分 支 预测 指令 交付 模块 


o ee exu branchslv 是 e203 exu commit 模块 的 子 模块 , 用 于 对 分 支 预测 指令 的 真实 
行 判断 。 相 关 源 代码 片段 如 下 所 示 。 


// e203 exu branchslv.v 源 代码 片段 


wire brchmis need flush - ( 


| 
// 如 果 预 测 的 结果 和 真实 的 结果 不 相符 ， 则 需要 产生 流水 线 冲刷 
(cmt i bjp & (cmt i bjp prat ^ cmt i bjp rslv)) 


"9 


assign brchmis flush req pre - cmt i valid & brchmis need flush; 


assign brchmis flush pc - 


/ /如 果 是 预测 了 需要 跳 转 , 但 是 实际 结果 显示 不 需要 跳 转 ， 则 流水 线 冲 刷 重新 取 指 的 新 PC 指向 此 跳 转 指 
令 的 下 一 个 指令 。 通 过 将 此 跳 转 指令 的 PC 加 上 4 如果 此 指令 是 32 位 指令 ) 或 者 2 (如 果 此 指令 是 16 位) 
计算 其 下 一 个 指令 的 PC. 


(cmt i fencei | (cmt i bjp & cmt i bjp prdt)) ? 
(cut i pc t (omt 1 rv32 ? 'E203 PC. SIZE'd4 : 'E203 PC SIZE' 'd2)) : 


// 如 果 是 预测 了 不 需要 跳 转 ， 但 是 实际 结果 显示 需要 跳 转 ,， 则 流水 线 冲刷 重新 取 指 的 新 Pc 指向 此 跳 转 指 
令 跳 转 目 标 地 址 。 通 过 将 此 跳 转 指令 的 Pc 加 上 跳 转 目标 偏 移 量 计算 目标 地 址 。 


(cmt i bjp & (-cmt i bjp prdt)) ? 
(cmt i pc * cmt i imm['E203 PC SIZE-1:0]) : 


ETET 


9.3.2 中断 和 异常 的 处 理 


ARES E200 处 理 器 对 于 中 断 和 异常 的 详细 实现 ， 请 参见 第 13 章 。 
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9.3.3 多 周期 执行 指令 的 交付 


对 于 普通 的 单 周期 指令 而 言 ， 其 “交付 ”和 “ 写 回 ”操作 在 “执行 ”阶段 的 同一 个 周期 
内 完成 。 而 对 于 执行 周期 超过 一 个 周期 的 多 周期 指令 而 言 ， 其 “交付 ”同样 在 “执行 ”阶段 
完成 , 但 是 “ 写 回 ”操作 则 需 在 后 续 的 周期 内 写 回 。 请 参见 第 10 章 了 解 更 多 蜂 乌 E200 处 理 
器 核 的 “ 写 回 ” 实 现 细节 。 
要 注意 以 下 两 种 情况 。 
。 虽然 有 的 长 指令 (譬如 EAI 协 处 理 器 指令 和 Load. Store 指令 ) 也 会 在 写 回 时 产生 
错误 异常 ， 但 是 按照 RISC-V 架构 规定 这 两 种 异常 可 以 当 作 异步 异常 处 理 ， 有 关 蜂 
E, E200 处 理 器 对 于 中 断 和 异常 的 详细 实现 ， 请 参见 第 13 36. 
e 而 所 有 其 他 的 常规 多 周期 指令 (譬如 除法 和 浮 点 指令 )，RISC-V 架构 规定 其 不 会 产 
^E ££ fa FEH o 


9.3.4 小结 


从 上 面 的 阐述 中 ， 我 们 可 以 看 出 蜂鸟 E200 处 理 器 将 “交付 ”安排 在 “执行 ”阶段 ， 整 
体 设计 方案 非常 简单 ， 这 得 益 于 RISC-V 架构 定义 的 特点 ， 使 得 “交付 ”的 实现 能 够 得 到 极 
大 简化 。 
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如 第 8 章 中 所 述 ， 指 令 在 蜂鸟 E200 流水 线 中 的 派 遗 点 被 派 遗 到 不 同 运 算 单元 执行 ， 就 
像 从 枪 膛 中 射出 的 子弹 一 样 。 让 子弹 飞 一 会 儿 ， 直 到 它 落 地 的 那 一 刻 ， 从 不 同 的 运算 单元 执 
行 完 毕 后 的 指令 也 最 终 都 会 将 其 计算 结果 写 回 (Write-Back) 通用 寄存 器 组 (Regfile)。 

本 章 将 简要 介绍 处 理 右 的 “ 写 回 ”功能 和 常见 的 策略 , 并 介绍 蜂鸟 E200 处理 器 核 的 “ 写 
回 ” 术 件 实现 微 架构 和 源码 分 析 。 


10.1 ESzETXSEIS 


10.1.1 处理 器 写 回 功能 简介 


如 第 6 章 中 所 述 , 在 经 典 的 五 级 流水 线 模型 中 , 处理 絮 的 流水 线 分 为 取 指 、 译 码 、 执行、 
访 存 以 及 写 回 。 写 回 是 流水 线 的 最 后 一 级 ,主要 的 作用 是 将 指令 的 运算 结果 写 回 到 通用 寄存 
器 组 。 


10.1.2 ”处 理 器 写 回 常见 策 略 


在 第 8 章 中 对 指令 发 里 、 派 遗 、 执 行 、 写 回 的 顺序 和 常见 策略 已 予以 详 述 ， 本 节 在 此 不 
WIER o 


10.2 EARNS EEES 


蜂 乌 E200 MEERI 5 ER E AA EES R. HESS E200 处 理 器 核 的 写 回 
硬件 实现 不 仅 保持 面积 最 小 化 的 原则 ， 还 能 取得 不 错 的 性 能 ， 其 核心 思想 如 下 。 
。 将 指令 划分 为 单 周 期 指令 和 长 指令 两 大 类 , 参见 第 8.3.7 节 了 解 有 关 单 周期 指令 和 长 
指令 的 分 类 信息 。 
e 将 长 指令 的 “交付 ”和 “ 写 回 ”分 开 ， 使 得 即便 执行 了 多 周期 长 指令 ， 仍 然 不 会 阻 
塞 流水 线 ， 让 后 续 的 单 周 期 指令 仍然 能 够 顺利 地 写 回 和 交付 。 
涉及 的 模块 如 图 10-1 中 的 圆圈 区 域 所 示 , 主要 包含 如 下 几 个 组 件 : 最 终 写 回 仲裁 (Final 
Write-Back Arbitration)、 长 指令 写 回 仲裁 (Long-Pipes Instructions Write-Back Arbitration) 和 
OITF (Outstanding Instruction Track FIFO)。 下 文 将 分 别 予 以 介绍 。 
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图 10-1 蜂鸟 E200 处 理 器 核 的 Write-Back 功能 示意 图 


最 终 与 回 仲裁 


蜂鸟 E200 处 理 器 有 两 级 写 回 仲裁 (WB-Arb) 模块 ， 其 中 之 一 是 最 终 写 回 仲 裁 模 块 ， 其 
BAU Fe 


如 图 10-1 所 示 ,“ 最 终 写 回 仲裁 ?主要 用 于 仲裁 所 有 单 周 期 指令 的 写 回 (来 和 目 于 ALU 
模块 ) 和 所 有 长 指令 的 写 回 〈 来 自 于 “长 指令 写 回 仲裁 ”模块 )， 仲 裁 采用 优先 级 仲 
裁 的 方式 。 由 于 长 指令 的 执行 周期 比较 长 , 因此 其 明显 比 正在 写 回 的 ALU 指令 在 程 
序 流 中 处 于 更 早 的 位 置 , 所 以 长 指令 的 写 回 比 单 周 期 指令 的 写 回 具有 更 高 的 优先 级 。 
如 果 在 没有 长 指令 写 回 的 空闲 周期 , 来 自 ALU 的 单 周 期 指令 则 可 以 随便 写 回 。 这 也 
就 意味 着 ， 在 程序 流 中 处 于 更 述 位 置 的 单 周 期 指令 可 以 比 更 早 位 置 的 长 指令 先 写 回 
Regfile〈( 如果 没有 数据 相关 性 )， 所 以 说 蜂鸟 E200 处理 器 也 具备 乱 序 写 回 的 能 力 。 
“最 终 写 回 仲裁 ”模块 相关 源 代 码 在 e200 opensource 目录 的 结构 如 下 。 关 于 GitHub 
网 站 上 e200_opensource 开源 项 目的 完整 代码 层次 结构 详解 ， 请 参见 第 17.10. 


e200 opensource 


|----rtl // 存放 RTL 的 目录 
|----e203 // E203 核 和 Soc 的 RTL 目录 
|----core // 存放 e203 Core ff] RTL 代码 
|----e203 exu wbck.v // 最 终 写 回 仲裁 模块 
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“最 终 写 回 仲 裁 ”模块 的 源 代码 片段 如 下 所 示 。 


// e203 exu wbck.v 源 代码 片段 


ETE 


// 所 有 单 周 期 指令 的 写 回 (来 自 于 ALU 模块 ) 
AAA 
// The ALU Write-Back Interface 


input alu wbck i valid, // 写 回 握手 请 求 信 号 
output alu wbck i ready, // 写 回 握手 反馈 信号 
input ['E203 XLEN-1:0] alu wbck i wdat, // 写 回 的 数据 值 


input  ['E203 RFIDX WIDTH-1:0] alu wbck i rdidx, // 写 回 的 寡 存 器 索引 值 


// 所 有 长 指令 的 写 回 〈 来 自 于 长 指令 写 回 仲裁 模块 ) 
A AE 
// The Longp Write-Back Interface 


input longp wbck i valid, // 写 回 握手 请 求 信号 
output longp wbck i ready, // 写 回 握手 反馈 信号 
input ['E203 FLEN-1:0] longp wbck i wdat, // 写 回 的 数据 值 


input ['E203 RFIDX WIDTH-1:0] longp wbck i rdidx, // 写 回 的 寄存 器 索引 值 


// 仲裁 后 写 回 Regfile 的 接口 。 
VULP MI IL MPMygE)IIEIPM PM OA HEI EAI Mg Mg « "ZI MM MP MP oMIEIJI V P Lg J AV V / | | | M Í 
// The Final arbitrated Write-Back Interface to Regfile 


output rf wbck o ena, // 写 使 能 
output  ['E203 XLEN-1:0] rf wbck o wdat, // 写 回 的 数据 值 
output  ['E203 RFIDX WIDTH-1:0] rf wbck o rdidx, // 写 回 的 寄存 器 索引 值 


// 使 用 优先 级 仲裁 ， 如 果 两 种 指令 同时 写 回 ， 长 指令 具有 更 高 的 优先 级 。 
// The ALU instruction can write-back only when there is no any 
// long pipeline instruction writing-back 


/ / * Since ALU is the 1 cycle instructions, it have lowest 
/ / priority in arbitration 
wire wbck ready4alu - (-longp wbck i valid); 


wire wbck sel alu - alu wbck i valid & wbck ready4alu; 

// The Long-pipe instruction can always write-back since it have high priority 
wire wbck ready4longp = 1'b1; 
wire wbck sel longp = longp wbck i valid & wbck ready4longp; 


assign alu wbck i ready = wbck ready4alu & wbck i ready; 
assign longp wbck i ready = wbck ready4longp & wbck i ready; 
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10.2.2 OITF 和 长 指令 写 回 仲裁 
OITF 和 长 指令 写 回 仲裁 模块 协同 合作 完成 所 有 长 指令 的 写 回 操作 ， 其 要 点 如 下 。 


如 图 10-1 所 示 ,“ 长 指令 写 回 仲裁 ”主要 用 于 仲裁 不 同 的 长 指令 之 间 的 写 回 ， 辟 如 
来 自 于 LSU、 乘 除法 器 、FPU 和 EAI 协 处 理 器 等 的 写 回 。 由 于 这 些 不 同 的 长 指令 执 
行 的 周期 数 各 不 相同 ， 甚 至 有 的 执行 周期 数 是 动态 的 ， 因 此 无 法 轻易 判断 这 些 指令 
的 先后 关系 ， 所 以 需要 记录 这 些 指令 的 先后 关系 。 

如 图 10-1 所 示 ，OITF COutstanding Instruction Track FIFO) 即 用 于 记录 这 些 长 指令 
的 信息 。 

OITF 本 质 上 是 一 个 先入 先 出 的 FIFO， 在 流水 线 的 派 遗 点 ， 每 次 派 遗 一 个 长 指令 ， 

则 会 在 OITF 中 分 配 一 个 表 项 (Entry)， 这 个 表 项 的 FIFO 指针 (Pointer) 便 作 为 这 
个 长 指令 的 ITAG (Instruction Tag). 

派 遗 的 长 指令 不 管 被 派 遗 到 任何 运算 单元 , 都 会 携带 者 这 个 ITAG, 长 指令 的 运算 单 
元 在 完成 了 运算 后 将 结果 写 回 之 时 ， 也 要 携 珊 其 对 应 的 ITAG。 

OITF 的 深度 便 决 定 了 能 够 派遣 的 清 外 〈Onutstanding) 长 指令 的 个 数 。 这 些 长 指令 写 
回 时 ， 理 论 上 其 实 无 须 严格 地 按照 其 派 遗 顺序 ， 只 需要 在 有 寄存 器 冲突 的 情形 时 才 
严格 亲 循 顺序 即 可 , 其 他 情形 时 可 以 乱 序 写 回 。 但 是 为 了 硬件 实现 的 简洁 , 蜂鸟 E200 
选择 了 简单 的 严格 参照 OITF 的 顺序 写 回 。 

由 于 OITF 是 一 个 先入 先 出 的 FIFO， 因 此 FIFO 的 读 指针 (Read Pointer) 会 指向 最 
先进 入 此 FIFO 的 表 项 ， 通 过 使 用 此 “ 读 指 针 ” 作 为 长 指令 写 回 仲裁 的 选择 参考 ， 就 
可 以 保证 不 同 长 指令 的 写 回 顺序 和 派 遗 顺序 严格 一 致 。 

每 次 从 “长 指令 写 回 仲 裁 ” 模 块 成 功 地 写 回 一 个 长 指令 之 后 ， 便 将 此 指令 在 OTF 
中 的 表 项 去 除 ， 即 从 FIFO 退出 《先入 先 出 ) 完成 其 历史 使 命 。 

由 于 有 的 长 指令 可 能 发 生 执 行 错误 ， 因 此 需要 产生 异常 。 所 以 “长 指令 写 回 仲裁 ” 

模块 需要 和 “交付 ”模块 进行 接口 触发 异常 。 如 果 长 指令 产生 了 异常 ， 则 不 会 真 的 
写 回 Regfile。 有 关 蜂 乌 E200 的 异常 处 理 实现 请 参见 第 13 章 。 

OITF 和 “长 指令 写 回 仲裁 ”模块 相关 源 代码 在 e200 opensource 目录 的 结构 如 下 。 

关于 GitHub 网 站 上 e200 opensource 开源 项 目的 完整 代码 层次 结构 详解 ， 请 参见 第 
17.1 45. 


e200 opensource 


[----rtil // 存放 RTL 的 目录 
|----e203 // E203 核 和 Soc 的 RTL 目录 
|----core // 存放 e203 Core 的 RTL 代码 
|----e200 exu disp.v // 指令 派遣 模块 
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|----e200 exu oitf.v // OITF 模块 
|----e203 exu longpwbck.v // Long-Pipes Instructions 
// Write-Back Arbitration 模块 


。 OITF 模块 的 源 代 码 分 析 请 参见 第 8.3.7 节 。 派 遗 模块 和 “长 指令 写 回 仲裁 ”模块 的 
相关 源 代码 片段 如 下 所 示 。 


// e203 exu disp.v 源 代码 片段 


// 在 派 遗 点 产生 oITF 分 配 表 项 的 使 能 信号 

// 如 果 当 前 派 遗 的 指令 为 一 个 长 指令 则 产生 此 使 能 信号 

assign disp oitf ena = disp o alu valid & disp o alu ready & disp alu lon 
gp real; 


"m 


// 来 自 整 数 除 法 单元 的 写 回 接口 

'ifdef E203 SUPPORT INDEP MULDIV //( 
lgMIMEIM M MMMMMIMMMMMIMIMMMIIIIMMMIMEMMMyIIMMMMWIIIKMEgMMMMÓMM 
// The DIV Write Interface 


// e203 exu longpwbck.v 源 代码 片段 
| 
| 


input div wbck i valid, // 写 回 握手 请 求 信号 
output div wbck i ready, // 写 回 握手 反馈 信号 
input  ['E203 XLEN-1:0] div wbck i wdat, // 写 回 的 数据 值 
input div wbck i err, // 写 回 的 异常 错误 指示 
input  ['E203 ITAG WIDTH-1:0] div wbck i itag, // 写 回 指 令 的 ITAG 
'endif//) 
/ /来自 LSU 单元 的 写 回 接口 


FATE 人 AAA 
// The LSU Write-Back Interface 


input lsu wbck i valid, // 写 回 握 手 请 求 信 号 

output lsu wbck i ready, // 写 回 握手 反馈 信号 

input  ['E203 XLEN-1:0] lsu wbck i wdat, // 写 回 的 数据 值 

input ['E203 ITAG WIDTH -1:0] lsu wbck i itag, // 写 回 指令 的 ITAG 

input lsu wbck i err , // 写 回 的 异常 错误 指示 

input lsu cmt i buserr , // 访 存 错误 异常 错误 指示 
input  ['E203 ADDR SIZE -1:0] lsu cmt i badaddr，// 产 生 访 存 错误 的 地 址 

input lsu cmt i ld, // 产 生 访 存 错误 为 Load 指令 
input  lsu cmt i st, // 产 生 访 存 错误 为 Store 指令 


// 仲裁 后 的 写 回 接口 ， 通 给 最 终 写 回 仲裁 模块 。 
ER Se 4&7 
// The Long pipe instruction Wback interface to final wbck module 
| output longp wbck o valid, // Handshake valid 
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input longp wbck o ready, // Handshake ready 
output ['E203 FLEN-1:0] longp wbck o wdat, 
output ['E203 RFIDX WIDTH -1:0] longp wbck o rdidx, 


// 仲裁 后 的 异常 接口 ， 通 给 交付 模块 。 
// The Long pipe instruction Exception interface to commit stage 
output longp excp o valid, 
input longp excp o ready, 
output  longp excp o insterr, 
output  longp excp o ld, 
output  longp excp o st, 
output  longp excp o buserr , 
output ['E203 ADDR SIZE-1:0] longp excp o badaddr, 
// 使 用 oITF 的 读 指针 (信号 oitf ret ptr) 作为 
// 长 指令 写 回 仲裁 的 选择 参考 。 


// The Long-pipe instruction can write-back only when it's itag 
/ / is same as the itag of toppest entry of OITF 
wire wbck ready4lsu = (lsu wbck i itag == oitf ret ptr) & (-oitf empty); 
wire wbck sel lsu = lsu wbck i valid & wbck ready4lsu; 
'ifdef E203 SUPPORT INDEP MULDIV //( 


wire wbck ready4div - (div wbck i itag -- oitf ret ptr) & (-oitf empty); 
wire wbck sel div - div wbck i valid & wbck ready4div; 
'endif//) 


// 只 有 没有 异常 错误 的 指令 才 需 要 写 回 Regfile 


// If the instruction have no error and it have the rdwen, then it need to 
// | write back into regfile, otherwise, it does not need to write regfile 
wire need wbck - wbck i rdwen & (-wbck i err); 


// 产生 了 异常 错误 的 指令 需要 和 交付 模块 接口 


// If the long pipe instruction have error result, then it need to handshake 
// | with the commit module. 
wire need excp - wbck i err; 


// 需要 保证 交付 模块 和 最 终 写 回 仲 裁 模块 同时 能 够 接受 
assign wbck i ready = 
(need wbck ? longp wbck o ready : 1'b1) 
& (need excp ? longp excp o ready : 1'b1); 


// 通 给 最 终 写 回 仲裁 模块 的 握手 请 求 
assign longp wbck o valid = need wbck & wbck i valid & (need excp ? longp 
 excp o ready : 1'b1); 


// 通 给 交付 模块 的 握手 请 求 


assign longp excp o valid = need excp & wbck i valid & (need wbck ? longp 
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| _Wbck o ready : 1'b1); 


// 每 次 从 长 指令 写 回 仲裁 模块 成 功 的 


// 写 回 一 个 长 指令 之 后 ， 便 将 此 指令 在 oITF 中 的 表 项 去 除 ， 即 从 FIFO 退出 (先入 先 出 ) 完成 其 
// ”历史 使 命 。 


// 以 下 信和 号 即 为 成 功 写 回 一 个 长 指令 的 使 能 信号 。 


assign oitf ret ena = wbck i valid & wbck i ready; 


10.2.3 小结 


从 上 述 的 阐述 中 ， 我 们 可 以 看 出 蜂鸟 E200 处 理 器 的 写 回 是 一 种 混合 策略 ， 体 现在 如 下 
方面 。 
。 如 果 仅 讨论 单 周 期 指令 ,蜂鸟 E200 的 策略 属于 “顺序 发 射 ， 顺 序 执行 ， 顺 序 写 回 ” 
e 如果 仅 讨论 长 指令 〈 由 不 同 的 长 指令 运算 单元 执行 )， 蜂 乌 E200 的 策略 属于 “顺序 
发 射 ， 乱 序 执 行 ， 顺 序 写 回 ”。 
。 如 果 将 单 周 期 指令 和 长 指令 统一 考虑 ， 蜂 乌 E200 的 策略 则 属于 “顺序 发 射 ， 乱 序 执 
行 ， 乱 序 写 回 ”。 
所 谓 “ 法 无 长 势 ， 运 用 之 妙 ， 存 乎 一心 "， 体 系 结构 设计 本 来 就 是 一 种 非常 灵活 和 创新 
的 学 问 ， 因 此 无 须 太 过 拘泥 于 固定 的 分 类 。 蜂 鸟 E200 处 理 器 作为 超 低 功 耗 处 理 器 核 ， 按 道 
理 可 以 选择 最 简单 的 顺序 执行 、 顺 序 写 回 的 策略 ， 但 是 我 们 却 选 择 追 求 极 小 面积 的 同时 ， 也 
兼顾 性 能 。 通 过 将 指令 划分 为 单 周期 指令 和 长 指令 两 大 类 ， 并 且 将 “交付 ”和 “ 写 回 ”分 开 
的 方式 ,使 得 即便 执行 了 多 周期 长 指令 ,仍然 不 会 阻塞 流水 线 。 后 续 的 大 多 数 单 周期 指令 仍 
然 能 够 顺利 地 “ 写 回 ”和 “交付 ” 并且 通过 OITF 记录 的 顺序 将 长 指令 的 写 回 单 独处 理 。 
硬件 实现 既 简 洁 ， 而 又 不 失 性 能 ， 这 便 是 “运用 之 妙 ， 存 乎 一心 ”的 体现 。 





哈弗 还 是 比亚迪 ? 看 上 去 都 挺 好 ! 
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本 章 的 标题 虽然 是 “哈弗 还 是 比亚迪 ”， 但 是 本 书 和 汽车 毫 无 关系 ， 之 所 以 如 此 标题 ， 
是 因为 本 章 将 讨论 选择 “哈佛 ”还 是 “ 汉 " 诡 依 曼 ”结构 。“ 哈弗 ”只 是 “哈佛 ”结构 的 一 个 
WEE, HORE RI REA FAIT 

谈 到 哈佛 结构 ， 熟 悉 计 算 机 体系 结构 的 读者 可 能 已 经 联想 到 本 章 的 主题 ， 本 章 将 简要 介绍 处 
EAH iar (Memory〉 架 构 ， 并 介绍 蜂鸟 E200 处 理 器 核 存 储 器 子 系统 的 微 架 构 和 源码 分 析 。 


11.1 RAEE 


在 介绍 蜂 乌 E200 处 理 器 核 的 存储 器 子 系统 之 前 ， 本 节 先 讨论 有 关 存 储 器 架构 的 几 个 常 
见 话题 。 


11.1.1 谁 说 处 理 器 一 定 要 有 缓存 


谈 及 处 理 器 的 存储 器 子 系统 ， 讨 论 得 最 多 的 英 过 于 缓存 (Cache)。 绥 存 几 平 可 以 认为 是 
处 理 器 微 架 构 中 最 复杂 的 部 分 ， 常 见 的 缓存 基础 知识 如 下 。 
e 缓存 的 映射 类 型 。 常 见 类 型 如 直接 映射 、 全 相 联 映射 、 组 相 联 映射 等 。 
e 缓存 的 写 回 策略 。 常 见 类 型 如 写 穿 通 、 写 分 配 等 。 
e 缓存 使 用 物理 地 址 还 是 虚拟 地 址 索引 。 常 见 类 型 如 PIPT、VIPT 等 。 
o 缓存 的 标签 (Tag) 和 数据 (Data) 的 组 织 顺 序 。 常 见 的 如 串 行 组 织 、 并 行 组 织 等 。 
。 多 级 缓存 的 组 织 和 管理 。 
e 在 多 核 架构 下 缓存 一 致 性 (Cache Coherency). 
有 关 组 存 的 基础 知识 和 设计 技巧 ,本 书 限于 篇 幅 不 做 歼 述 ， 感 兴趣 的 读者 可 以 参见 维基 
百科 上 关于 缓存 的 词 条 网 页 〈 请 在 维基 百科 搜索 “CPU cache"). 
缓存 虽然 很 火 ， 但 是 谁 说 处 理 器 一 定 要 有 缓存 ? 也 许 很 多 读者 一 直 认 为 缓存 是 处 理 器 中 必 不 
可 少 的 部 分 , 但 是 众多 极 低 功 耗 的 处 理 器 其 实 并 没有 配备 缓存 ， 主 要 是 出 于 如 下 几 个 方面 的 原因 。 
(1) 无 法 保证 实时 性 。 
。 这 是 绥 存 不 被 使 用 的 最 主要 原因 。 缓 存 是 一 种 缓存 机 制 ， 利 用 软件 程序 的 时 间 局 部 
性 和 空间 局 部 性 ， 将 空间 巨大 的 存储 器 数据 动态 映射 到 容量 有 限 的 缓存 中 ， 可 以 将 
访问 存储 器 的 平均 延迟 降低 到 最 小 。 
e 由 于 缓存 的 容量 是 有 限 的 ， 因 此 访问 缓存 存在 着 相当 大 的 不 确定 性 。 一 旦 缓存 不 命 
中 〈Cache-Miss)， 则 需要 从 外 部 的 存储 器 中 存 取 数 据 ， 造 成 较 长 的 延迟 。 在 对 实时 
性 要 求 高 的 场景 中 ， 处 理 器 的 反应 速度 必须 有 最 可 靠 的 实时 性 。 如 果 使 用 了 缓存 ， 
则 无 法 保证 这 一 点 。 
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e 大 多 数 极 低 功 耗 处 理 器 应 用 的 场景 都 应 用 于 实时 性 较 高 的 场景 ， 因 此 更 加 倾 癌 于 使 
用 延迟 确定 的 ITCM (Instruction Tightly Coupled Memory) 或 者 DTCM (Data Tightly 
Coupled Memory)， 有 关 ITCM 和 DTCM 的 相关 信息 在 第 11.1.3 节 中 专门 介绍 。 
(2) 软件 规模 较 小 。 
。 大 多 数 极 低 功 耗 处 理 器 均 应 用 于 深 嵌 入 式 领 域 。 此 领域 中 的 软件 代码 规模 一 般 较 小 ， 
所 需要 的 数据 段 也 较 小 ,使 用 几 十 KB 的 片上 SRAM 或 者 ITCM/DTCM 便 可 以 满足 
其 需求 ， 因 此 缓存 能 够 缓存 空间 巨大 存储 器 数据 的 优点 在 此 变 得 无 用 武之 地 了 。 
(3) 面积 功 耗 大 。 
。 缓存 的 设计 难度 相 比 TTCM 和 DTCM 要 大 很 多 , 消耗 的 面积 资源 和 带 来 的 功 耗 损失 
也 更 大 。 而 极 低 功 耗 处 理 器 更 加 追求 小 面积 和 能 效 比 ， 因 此 更 倾 辐 于 使 用 ITCM 和 
DTCM. 
基于 如 上 几 个 原因 ,目前 主流 的 极 低 功 耗 处 理 器 其 实 都 没有 使 用 缓存 ,以 ARM Cortex-M 
为 例 , 如 表 11-1 所 示 , 仅 有 最 高 端的 Cortex-M7 配备 了 缓存 ,须知 Cortex-M7 采用 了 六 级 流 
水 线 双 发 射 的 处 理 器 核 ， 已 经 不 算是 极 低 功 耗 处 理 器 了 。 


表 11-1 ARM Cortex-M 的 缓存 配置 情况 
Cortex-M 系列 型 号 是 否 有 缓存 
ARM Cortex-MO+ 
ARM Cortex-MO 
X 
ARM Cortex-M3 
ARM Cortex-M4 
ARM Cortex-M7 有 


11.1.2 “处理 器 一 定 要 有 存储 器 


虽然 处 理 器 不 一 定 需要 缓存 ， 但 是 处 理 器 是 一 定 需要 存储 器 的 。 

根据 计算 机 奠基 人 之 一 的 科学 家 冯 * 诺 依 曼 (John Von*Neumann) 提出 的 计算 机 体系 结 
构 模 型 ， 如 图 11-1 所 示 ， 计 算 机 必须 具备 五 大 组 成 部 分 : 输入 设备 、 输 出 设备 、 存 储 器 、 
运算 器 和 控制 器 。 其 中 ， 运 算 器 和 控制 器 可 以 归于 处 理 器 核 的 范畴 ， 其 运行 的 指令 和 所 需要 
的 数据 都 必须 来 自 于 存储 器 。 

熟悉 计算 机 体系 结构 的 读者 一 定 知道 处 理 器 访问 存储 器 的 策略 ， 在 理论 上 存在 着 冯 * 诺 
依 曼 结构 和 哈佛 (Harvard) 结构 两 种 。 

(OD 冯 * 诺 依 曼 结构 也 称 普林斯顿 结构 ， 是 一 种 将 指令 存储 器 和 数据 存储 器 合并 在 一 起 
的 存储 右 结 构 。 程 序 的 指令 存储 地 址 和 数据 存储 地 址 指向 同一 个 存储 器 的 不 同 物理 位 置 。 
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BER Hed 控制 流 
图 11-1 冯 * 诺 依 曼 定 义 的 计算 机 体系 模型 


(2) 哈佛 结构 是 一 种 将 指令 存储 器 和 数据 存储 器 分 开 的 存储 器 结构 。 如 图 11-2 所 示 ， 
它 的 主要 特点 如 下 。 

。 将 程序 和 数据 存储 在 不 同 的 存储 空间 中 ， 即 程序 存储 器 和 数据 存储 器 是 两 个 独立 的 
存储 器 ， 每 个 存储 器 独立 编 址 、 独 立 访问 。 

。 与 两 个 存储 器 相对 应 的 是 两 条 独立 的 指令 总 线 和 数据 总 线 。 这 种 分 离 的 总 线 使 得 处 
理 右 可 以 在 一 个 周期 内 同时 获得 指令 字 来 自 指令 存储 器 ) 和 操作 数 〈 来 自 数据 存 
储 器 )， 从 而 提高 了 执行 速度 和 数据 的 吞吐 率 。 

。 由 于 指令 和 数据 存储 在 两 个 分 开 的 物理 空间 中 ， 因 此 取 址 和 执行 能 完全 并 行 。 








哈佛 结构 
而 在 实际 的 现代 处 理 器 设计 中 ， 冯 * 诺 依 曼 结构 和 哈佛 结构 的 概念 界限 已 经 变 得 越 来 越 
微妙 ， 而 且 模糊 ， 有 具体 阐述 如 下 。 


图 11-2 
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。 从 软件 程序 的 角度 来 看 ， 系 统 往往 只 有 一 套 地 址 空间 ， 程 序 的 指令 存储 地 址 和 数据 存 
储 地 址 指向 同一 套 地 址 空间 的 不 同 物理 地 址 ， 因 此 这 符合 冯 * 诺 依 曼 体系 结构 的 准则 。 
。 从 硬件 实现 的 角度 来 看 ， 现 代 处 理 器 设计 往往 会 配备 专用 的 一 级 指令 缓存 (Level-1 
Instruction Cache) 和 一 级 数据 缓存 (Level-1 Data Cache), 或 者 专用 的 一 级 指令 存储 
器 (Level-1 Instruction Memory) 和 一 级 数据 存储 器 (Level-1 Data Memory)， 因 此 
符合 哈佛 结构 的 准则 。 
。 即便 是 对 于 一 级 指令 储存 器 ， 有 的 处 理 器 也 可 以 存储 数据 ， 供 存储 器 读 写 指令 访问 。 
因此 这 也 变 成 了 一 种 冯 " 诺 依 曼 体 系 结构 。 
。 现代 处 理 器 设计 往往 会 配备 指令 和 数据 共享 的 二 级 缓存 (Level-2 Cache),， 或 者 共享 
的 二 级 存储 器 (Level-2 Memory)。 在 二 级 存储 器 中 ， 程 序 的 指令 存储 地 址 和 数据 存 
储 地 址 指向 同一 套 地 址 空间 的 不 同 物理 地 址 ， 并 且 共 享 读 写 访问 通道 ,因此 符合 加 
诺 依 曼 结 构 的 准则 。 
综 上 原因 ， 可 以 看 出 汉 。 诺 依 曼 结构 和 哈佛 结构 并 不 是 一 种 非 此 即 彼 的 选择 ， 也 无 须 按 
照 这 两 种 架构 严格 区 分 和 划分 现代 的 处 理 器 。 在 处 理 器 的 实际 设计 中 , ILS 3E ELS DEA Ex 
灵活 地 加 以 运用 即 可 。 
对 ARM Cortex-M 系列 处 理 器 核 而 言 ， 按 照 其 存储 器 访问 接口 的 数目 作为 划分 汉 " 话 依 
曼 结 构 或 哈佛 结构 的 标准 ， 总 结 如 表 11-2 所 示 。 


ARM Cortex-M4 哈佛 H 


表 11-2 ARM Cortex-M 的 存储 器 架构 类 型 
Cortex-M 系列 型 号 详 d 
ARM Cortex-MO+ Ie 8 Cortex-M0+ 和 Cortex-MO0 仅 提 供 一 个 AHB-Lite 存储 器 访问 接 
ARM Cortex-MO neas 口 ， 供 数据 和 指令 存储 器 访问 共享 
ARM Cortex-M3 Cortex-M3 和 Cortex -M4 提供 分 开 的 指令 和 数据 存储 器 访问 接 
哈佛 


ARM Cortex-M7 Cortex-M7 提供 分 开 的 指令 和 数据 存储 器 访问 接口 


11.1.3 ITCM 和 DTCM 


在 上 述 小 节 中 靖 述 了 处 理 器 未 必需 要 缓存 ， 但 是 处 理 器 必须 具备 存储 器 (Memory)。 作 
为 典型 代表 ，Cortex-M3 和 Cortex-M4 处 理 器 核 配备 了 指令 紧 耦 合 存储 器 (Instruction Tightly 
Coupled Memory, ITCMO 和 数据 紧 耦 合 存 储 器 (Data Tightly Coupled Memory; DTCM), 
相 比 于 缓存 (Cache〉 而 言 更 加 适合 姐 入 式 低 功 耗 处 理 器 ， 原 因 如 下 。 

(1) 能 够 保证 实时 性 。 

ITCM 和 DTCM 被 映射 到 不 同 的 地 址 区 间 , 处 理 器 的 访问 使 用 明确 的 地 址 映射 的 方式 访 
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问 ITCM 和 DTCM. Hi T ITCM 和 DTCM 并 不 是 缓存 机 制 ， 不 存在 着 缓存 不 命中 的 情况 ， 
其 访问 的 延迟 是 明确 可 知 的 ， 因此 程序 的 执行 过 程 能 够 得 到 明确 的 性 能 结果 。 在 实时 性 要 求 
高 的 场景 ， 处 理 器 的 反应 速度 能 够 取得 可 靠 的 实时 性 。 

(2) 能 够 满足 软件 需求 。 

如 第 11.1.1 节 所 述 ， 大 多 数 极 低 功 耗 处 理 器 均 应 用 于 深 姐 入 式 领 域 ， 此 领域 中 的 软件 代 
码 规模 一 般 较 小 , 所 需要 的 数据 段 也 较 小 , 使 用 几 十 KB 的 ITCM/DTCM 便 可 以 满足 其 需求 。 

(3) 面积 功 耗 小 。 

ITCM 和 DTCM 设计 很 简单 ， 面 积 和 功 耗 更 小 。 


11.2 Eom A el i to rsa LIE EIE L^ 


上 一 节 讨 论 了 处 理 器 存储 器 的 相关 背景 和 技术 ， 存 储 器 是 每 个 处 理 器 必 不 可 少 的 一 环 。 

在 第 2 章 中 曾经 总 结 性 地 探讨 过 RISC-V 架构 追求 简化 硬件 的 哲学 ， 具 体 对 于 存储 器 访 
问 指令 而 言 ，RISC-V 架构 的 如 下 特点 可 以 大 幅 简化 硬件 实现 。 

。 AFEMI. 

。 无 地 址 目 增 目 减 模式 。 

e 无 “一 次 读 多 个 数据 〈Load-Multiple)” 和 “一 次 写 多 个 数据 〈Store-Multiple)” 指 令 。 

下 文 分 别 予 以 论述 。 


11.2.1 仅 支 持 小 端 格式 


因为 现在 的 主流 应 用 是 小 端 格式 ，RISC-V 架构 仅 支 持 小 端 模式 ， 而 不 支持 大 闯 格 式 ， 
因此 可 以 简化 硬件 的 实现 ， 无 须 做 特别 的 数据 转换 。 


11.2.2 ”无 地 址 自 增 自 减 模式 


很 多 RISC 处 理 器 都 支持 地 址 自 增 或 者 自 减 模式 ， 这 种 自 增 或 者 自 减 的 模式 能 够 提高 处 
理 器 访问 连续 存储 器 地 址 区 间 的 性 能 , 但 同时 也 增加 了 处 理 器 的 硬件 实现 难度 。 由 于 RISC-V 
架构 的 存储 器 读 和 存储 器 写 指令 不 支持 地 址 自 增 自 减 的 模式 , 因此 可 以 很 大 程度 上 简化 地 址 
的 生成 逻辑 。 


11.2.3 ”无 “一 次 读 多 个 数据 ”和 “一 次 写 多 个 数据 ”指令 
很 多 RISC 架构 定义 了 一 次 写 多 个 寄存 器 到 存储 器 中 ， 或 者 一 次 从 存储 器 中 读 多 个 寄存 
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器 的 指令 ， 这 样 的 好 处 是 一 条 指令 就 可 以 完成 很 多 事情 。 但 是 这 种 “一 次 读 多 个 数据 ”和 “一 
次 写 多 个 数据 ”指令 的 次 端 是 会 让 处 理 器 的 硬件 设计 非常 复杂 ， 增 加 硬件 的 开销 ， 也 可 能 损 
伤 时 序 ， 无 法 提高 处 理 器 的 主 频 。 而 RISC-V 没有 定义 此 类 指令 ， 使 得 硬件 设计 非常 简单 。 


11.3 -ETE TT ET Ee 
本 节 将 介绍 RISC-V 架构 的 存储 器 访问 相关 指令 。 
11.3.1 Load 和 Store 指令 


与 所 有 的 RISC 处 理 器 架构 一 样 ，RISC-V 架构 使 用 专用 的 存储 器 读 (Load) 指令 和 存 
储 器 写 〈Store) 指令 访问 存储 器 ， 其 他 的 普通 指令 无 法 访问 存储 器 。 

RISC-V 架构 定义 了 7 条 存储 器 读 指令 和 存储 器 写 指令 ， 分 别 为 LH、LHU、LB、LBU、 
LW、SB、SH、SW， 用 于 支持 以 一 个 字 节 、 半 字 、 单 字 为 单位 的 存储 器 读 写 操作 。RISC-V 
架构 推荐 使 用 地 址 对 齐 的 存储 器 读 写 操作 ， 但 是 也 支持 地 址 非 对 齐 的 存储 器 操作 RISC-V 2 
构 ， 处 理 器 可 以 选择 用 硬件 来 支持 ， 也 可 以 选择 用 软件 异常 服务 程序 来 支持 。 

AR Load 和 Store 指令 的 详细 定义 ， 请 参见 附录 A142 节 。 


11.3.2 ”Fence 指令 


RISC-V 架构 采用 松散 存储 器 模型 (Relaxed Memory Model)， 松 散 存 储 器 模型 对 于 访问 
不 同 地 址 的 存储 器 读 写 指令 的 执行 顺序 不 作 要 求 ， 除 非 使 用 明确 的 存储 器 屏障 指令 。 有 关 存 
储 嚣 模型 和 存储 器 屏障 指令 的 更 多 信息 ， 请 参见 附录 A13。 
RISC-V 架构 定义 了 Fence 和 Fence.I 两 条 存储 器 屏障 指令 ， 用 于 强行 界定 存储 器 访问 的 
顺序 ， 其 定义 如 下 。 
。 在 程序 中 ， 如 果 添 加 了 一 条 Fence 指令 ， 则 Fence 指令 能 够 保证 “在 Fence 之 前 所 有 
指令 造成 的 访 存 结果 ”必须 比 “ 在 Fence 之 后 所 有 指令 造成 的 访 存 结果 ” 先 被 观测 到 。 
。 在 程序 中 ， 如 果 添 加 了 一 条 Fence.I 指令 ， 则 “在 Fence.I 之 后 所 有 指令 的 取 指 令 操 
作 ” 一 定 能 够 观测 到 “在 Fence.I 之 前 所 有 指令 造成 的 访 存 结果 ”。 
AR Fence 和 Fence.I 指令 的 详细 定义 ， 请 参见 附录 A14.2 节 。 


11.3.3 “A” 扩 展 指令 
RISC-V 架构 定义 了 一 种 扩展 指令 子 集 (由 A 字母 表示 )， 主 要 用 于 支持 在 多 线程 情形 
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下 访问 存储 器 的 原子 (Atomic) 操作 或 者 同步 操作 ， 其 包括 两 类 指令 。 
e Atomic Memory Operation (AMO) 指令 。 
e  Load-Reserved 和 Store-Conditional 指令 。 
有 关 以 上 两 类 指令 的 详细 定义 ， 请 参见 附录 A14.5 7. 


11.4 EHI TITLE ERES IC IL 47 
11.4.1 ”存储 器 子 系统 总 体 设计 思 


蜂鸟 E200 处 理 器 核 的 存储 器 子 系统 结构 如 图 11-3 中 圆圈 区 域 所 示 ， 主 要 包含 如 下 4 个 
组 件 。 

。 AGU 主要 为 读 和 写 指令 ， 以 及 “A” 扩 展 指令 生成 存储 器 访问 地 址 。 

e LSU 主要 作为 存储 露 访问 的 控制 模块 。 

e ITCM 主要 作为 存储 器 子 系统 的 指令 存储 部 件 ， 但 是 也 能 够 用 于 存储 数据 而 被 读 和 

写 指令 访问 。 
e DTCM 作为 存储 器 子 系统 的 数据 存储 部 件 。 
下 文 将 分 别 予 以 论述 。 





快速 lO 接口 CB ”私有 设备 接口 IC8 ”系统 存储 接口 ICB ”CUHNT 接 口 ICB ”PLIC 接 口 IC8 





图 11-3 SES, E200 处 理 器 核 的 存储 器 子 系统 结构 示意 图 
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11.4.2 AGU 


AGU (Address Generation Unit) 主要 用 于 产生 读 / 写 指令 以 及 “A” 扩 展 指 令 的 访 存 地 址 ， 
其 微 架 构 的 要 点 如 下 。 
。 如 图 11-3 所 示 , AGU 是 ALU 的 一 个 子 单 元 。 AGU 的 相关 源 代 码 在 e200 opensource 
目录 的 结构 如 下 。 关 于 GitHub 网 站 上 e200 opensource 开源 项 目的 完整 代码 层次 结 
构 详 解 ， 请 参见 第 17.1 5. 


e200 opensource 
|----rtl // 存放 RTL 的 目录 
|----e203 // E203 核 和 SoC 的 RTL 目录 
|----core // 存放 e203 Core 的 RTL 代码 
|----e203 exu alu.v // ALU 顶层 模块 
|----e203 exu alu dpath.v // ALU 的 数据 通路 (包含 加 法 器 》 
|----e203 exu alu lsuagu.v // AGU 的 源 代码 


。 根据 RISC-V REX, VE/SI TR Tia RECS — I RETE i RAT UR DR TE BURIED 
PRERE. ERRARE, BEEE Lm 05H SES. 14 
省 面积 ， 蜂 乌 E200 处 理 器 复 用 ALU 的 加 法 器 用 于 访 存 地 址 计算 。 相 关 的 源 代码 片 
段 如 下 所 示 。 


// e203 exu alu lsuagu.v 源 代 码 片段 


// 此 模块 作为 AGU 的 源 代码 模块 ， 其 中 主要 实现 了 相关 的 控制 和 选择 ， 并 没有 实际 使 用 加 法 器 。 


// 输出 加 法 操作 所 需 的 操作 数 和 运算 类 型 ，ALU 共享 数据 通路 模块 中 将 实际 使 用 这 几 个 信号 进行 
加 法 运算 。 
output ['E203 XLEN-1:0] agu req alu opl, 
output ['E203 XLEN-1:0] agu req alu op2, 
output agu req alu add , 
// 输入 来 自 ALU 共享 数据 通路 模块 加 法 器 运算 的 结果 。 
input  ['E203 XLEN-1:0] agu req alu res, 


// 指示 需要 进行 加 法 操作 


assign agu req alu add = 1'b0 
| icb sta is idle 
// 加 法 器 所 需 的 操作 数 一 来 自 寄 存 器 索引 的 =sl 操作 数 
assign agu req alu opl - icb sta is idle ? agu i rsl 
: 'E203 XLEN'd0; 


// 加 法 器 所 需 的 操作 数 二 来 自立 即 数 
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wire ['E203 XLEN-1:0] agu addr gen op2 = agu i ofst0 ? 'E203 XLEN'bO : ag 
u i imm; 
assign agu req alu op2 = icb sta is idle ? agu addr gen op2 
'E203 XLEN'd0; 


// 使 用 来 自 ALU 共享 数据 通路 模块 进行 加 法 运算 的 结果 ， 作 为 访 存 的 地 址 信号 
assign agu icb cmd addr = agu req alu res['E203 ADDR SIZE-1:0]; 


// e203 exu alu dpath.v 源 代 码 片 段 


// 此 模块 作为 ALU 的 共享 数据 通路 ， 其 中 主要 包含 了 一 个 加 法 器 。ALU 所 处 理 的 所 有 指令 的 实际 运 
算 均 由 此 模块 的 数据 通路 执行 。 


assign ( // 来 自 ALU，BJP，AGU 模块 的 请 求 信号 组 成 一 个 Mux 共享 ALU 的 操作 数 
mux opl 
,mux op2 


((DPATH MUX WIDTH(alu req alu)) & { //3KB| ALU 的 请 求 信号 
alu req alu opl 
,alu req alu op2 
} ) 
| ((DPATH MUX WIDTH(bjp req alu]) & ( // 来 自 BJP 的 请 求 信号 
bjp req alu opl 
,bjp req alu op2 
)) 
| ((DPATH MUX WIDTH(agu req alu)) & ( // 来 自 AGU 的 请 求 信号 
agu req alu opl 
,agu req alu op2 


EE 


/ /将 Mux 选择 后 的 操作 数 送 入 加 法 器 通路 
wire ['E203 XLEN-1:0] misc opl 
wire ['E203 XLEN-1:0] misc op2 


mux opl['E203 XLEN-1:0]; 
mux op2['E203 XLEN-1:0]; 


"et 


wire ['E203 ALU ADDER WIDTH-1:0] misc adder opl - 
(('E203 ALU ADDER WIDTH-'E203 XLEN((-op unsigned) & misc opl['E203 XL 
EN-1])),misc opl); 
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wire ['E203 ALU ADDER WIDTH-1:0] misc adder op2 = 


(('E203 ALU ADDER WIDTH-'E203 XLEN{ (~op unsigned) & misc op2['E203 XL 
EN-1]])),misc op2); 


// 生 成 加 法 器 的 操作 数 
wire ['E203 ALU ADDER WIDTH-1:0] adder opl 
'ifdef E203 SUPPORT SHARE MULDIV //( 
muldiv req alu ? muldiv req alu opl 
'endif//) 
misc adder opl; 
wire ['E203 ALU ADDER WIDTH-1:0] adder op2 
'ifdef E203 SUPPORT SHARE MULDIV //{ 
muldiv req alu ? muldiv req alu op2 
'endif//) 
misc adder op2; 


wire adder cin; 

wire ['E203 ALU ADDER WIDTH-1:0] adder in1; 
wire ['E203 ALU ADDER WIDTH-1:0] adder in2; 
wire ['E203 ALU ADDER WIDTH-1:0] adder res; 


// 判 断 所 需 的 是 加 法 还 是 减法 操作 
wire adder add; 
wire adder sub; 


assign adder add - 
'ifdef E203 SUPPORT SHARE MULDIV //( 
muldiv req alu ? muldiv req alu add : 
'endif//) 
op add; 
assign adder sub - 
'ifdef E203 SUPPORT SHARE MULDIV //{ 
muldiv req alu ? muldiv req alu sub : 
'endif//) 
( 
// The original sub instruction 
(op sub) 
// The compare lt or gt instruction 
| (op cmp lt | op cmp gt | 
op cmp ltu | op cmp gtu | 
op max | op maxu | 
op min | op minu | 
op slt | op sltu 
)); 


wire adder addsub - adder add | adder sub; 


// 假 设 当前 的 操作 不 是 加 法 或 者 减法 操作 ， 则 将 加 法 器 的 输入 门 控 (Gate) 住 以 节省 动态 功 耗 
// Make sure to use logic-gating to gate off the adder 
assign adder inl = ('E203 ALU ADDER WIDTH(adder addsub)) & (adder opl); 
// 使 用 取 反 加 一 的 方式 将 补 码 减法 转换 成 加 法 操作 
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assign adder in2 = {'E203 ALU ADDER WIiDTH{adder addsub}} & (adder sub ? ( 
-adder op2) : adder op2); 
assign adder cin - adder addsub & adder sub; 


// 最 终 实 际 的 加 法 器 数据 通路 


| assign adder res = adder inl + adder in2 + adder cin; 





/ /'F& ALU 的 加 法 器 计算 结果 返回 给 AGU 
assign agu req alu res = alu dpath res['E203 XLEN-1:0]; 


。 RISC-V 架构 对 于 地 址 非 对 齐 〈Address Misalign). 的 读 和 写 指 令 ， 可 以 使 用 硬件 支 
持 ， 也 可 以 使 用 软件 通过 异常 服务 程序 的 方式 采用 软件 支持 。 蜂 鸟 E200 与 伯克利 
开源 的 Rocket Core 一 样 选择 采用 软件 支持 AGU 通过 对 生成 出 的 访 存 地 址 进行 判 
断 ， 如 果 其 地 址 非 对 齐 ， 则 产生 异常 标志 。 通 过 ALU 传送 给 交付 模块 ， 交 付 模块 
则 据 此 产生 异常 (请 参见 第 13.5 节 了 解 更 多 异常 处 理 的 信息 )。 相 关 的 源 代 码 片 段 
如 下 所 示 。 


// e203 exu alu lsuagu.v 源 代 码 片 段 


// 判断 当前 读 、 写 指令 访问 内 存 的 操作 尺寸 (size) 


wire agu i size b = (agu i size == 2'b00); 
wire agu i size hw - (agu i size -- 2'b01); 
| wire agu i size w = (agu i size == 2'b10); 


/ /将 ALU 的 加 法 器 计算 结果 作为 读 、 写 指令 访 存 的 地 址 
assign agu icb cmd addr = agu req alu res['E200 ADDR SIZE-1:0]; 


| // 判断 当前 访 存 的 地 址 是 否 和 操作 尺寸 对 齐 (Memory Aligned) 


wire agu i addr unalgn = 


| // 如 果 地 址 最 低位 不 为 0， 意味 着 和 半 字 (Half-Word) 不 对 齐 
| (agu i size hw & agu icb cmd addr[0]) 


/7 如 果 地 址 最 低 两 位 不 为 0， 意味 着 和 字 (Word) 不 对 齐 


| (agu i sizew & (lagu icb cmd addr[1:0])); 
wire state last exit ena; 
| wire agu addr unalgn - agu i addr unalgn; 


wire agu i unalgnld = agu addr unalgn & agu i load; 
wire agu i unalgnst - agu addr unalgn & agu i store; 


// 产生 非 对 齐 指示 信号 给 交付 接口 
assign agu o cmt misalgn = 1'bO 
| (agu i unalgnldst) ; 
// 产生 Load 指令 指示 信号 给 交付 接口 ， 将 
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// 用 于 产生 读 存 储 器 地 址 不 对 齐 异常 (Load address misaligned Exception) 
assign agu o cmt ld - agu i load & (-agu i excl); 
// 产生 Store 和 AMO 指令 指示 信号 给 交付 接口 ， 将 
// 用 于 产生 写 存储 器 或 AMo 地 址 不 对 齐 异 常 (Store/AMO address misaligned Exception) 


assign agu o cmt stamo = agu i store | agu i amo | agu i excl; 


。 如 果 没 有 产生 异常 的 读 和 写 指令 ， 则 通过 AGU 的 ICB 接口 发 送 给 LSU 模块 ， 如 图 
11-3 所 示 。 有 关 ICB 接口 协议 的 详细 介绍 ， 请 参见 第 12.2 节 。 注 意 : 如 果 产 生 了 异 
常 的 读 、 写 指令 ， 则 不 会 发 送 给 LSU 模块 。 相 关 源 代码 片段 如 下 所 示 。 


// e203 exu alu lsuagu.v 源 代码 片段 


// 产生 ICB 接口 的 cmd valid 信号 
assign agu icb cmd valid = 
// 只 有 地 址 对 齐 〈 不 会 产生 异常 ) 的 指令 才 会 生成 cmd valid 
((agu i algnldst & agu i valid) 
// 为 了 保证 指令 被 同时 发 送 给 交付 接口 和 ICB 接口 ， 必 须 “与 ”上 交付 接 
// 口 的 接收 ready 信号 “agu o ready" 
& (agu o ready) 
) 
// 产生 ICB 接口 的 cmd addr 信号 (使 用 ALU 的 加 法 器 计算 结果 ) 和 cmd read 信号 
assign agu icb cmd addr = agu req alu res['E203 ADDR SIZE-1:0]; 


assign agu icb cmd read 
(agu i algnldst & agu i load) 


, 


// 产生 ICB 接口 的 cmd wdata 和 cmd wmask 信号 ， 由 于 需 经 过 32 位 宽 的 ICB 总 线 ， 所 以 
必须 经 过 操作 尺寸 Size) 对 齐 
wire ['E203 XLEN-1:0] algnst wdata = 
(('E203 XLEN(agu i size b )) & {4{agu i rs2[ 7:0])]) 
| (('E203 XLEN(agu i size hw}} & (2(agu i rs2[15:0]])) 
| (('E203 XLEN(agu i size w ]) & (1(agu i rs2[31:0]])]); 


wire ['E203 XLEN/8-1:0] algnst wmask - 
(('*E203 XLEN/8(agu i size b )) & (4'b0001 << agu icb cmd addr[1:0])) 
| (('E203 XLEN/8[(agu i size hw}} & (4'b0011 << {agu icb cmd addr[1] 


:1'b0})) 
| (('E203 XLEN/8{agu i size w ]) & (4'b1111)); 


algnst wdata; 


assign agu icb cmd wdata 
algnst wmask; 


assign agu icb cmd wmask 


11.4.3 LSU 


LSU 全 称 为 Load Store Unit， 是 蜂鸟 E200 处 理 器 核 存 储 器 子 系统 的 主要 控制 单元 ， 如 
图 11-3 所 示 ， 其 要 点 如 下 。 
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e LSU 的 相关 源 代 码 在 e200 opensource 目录 的 结构 如 下 。 关 于 GitHub 网 站 上 
e200_opensource 开源 项 目的 完整 代码 层次 结构 详解 ， 请 参见 第 17.1 节 。 

e200 opensource 

|----rtl // 存放 RTL 的 目录 
|----e203 // E203 ff Soc 的 RTL 目录 
|----core // 存放 e203 Core If] RTL 代码 
|----e203 lsu.v // LSU 顶层 模块 
|42—-e203 lsu ctrl.v // LSU 模块 主体 控制 

。 LSU 的 微 架 构 和 代码 实现 与 BIU 模块 非 党 相似， 建议 读者 先 阅读 第 12 章 了 解 有 关 
ICB 和 BIU 的 介绍 ， 更 有 利于 理解 本 节 内 容 。 

e LSU 有 两 组 输入 ICB 总 线 接口 ， 分 别 来 自 于 AGU 单元 和 EAI 协 处 理 器 (有关 EAI 
协 处 理 器 接口 ， 请 参见 第 16.3 节 )。 有 3 组 输出 ICB 总 线 接口 ， 分 别 分 发 给 BIU、 
DTCM AI ITCM. 5b, LSU 通过 其 写 回 接口 将 结果 写 回 。 

。 两 组 输入 ICB 总 线 经 过 一 个 “ICB 汇合 ”模块 将 其 汇合 成 为 一 组 ICB 总 线 ， 采 用 的 
仲裁 机 制 是 优先 级 仲裁 ，EAI 总 线 具 有 更 高 的 优先 级 。 有 关 “ICB 汇合 ”模块 的 详 
细 介 绍 ， 请 参见 第 12.3.2 节 。 

。 经 过 汇合 之 后 的 ICB 总 线 通过 其 命令 通道 (Command Channel) 的 地 址 进行 判断 ， 
通过 其 访问 的 地 址 区 间 产 生 分 发 信息 ， 然 后 使 用 一 个 “ICB 分 发 ”模块 将 其 分 发 给 
不 同 的 存储 器 组 件 的 ICB 接口 (包括 BIU, DTCM 和 ITCM)。 有 关 “ICB 分 发 ” 模 
块 的 详细 介绍 ， 请 参见 第 12.3.1 节 。 

e LSU 中 使 用 到 的 “ICB 汇合 ”和 “ICB 分 发 ”模块 的 FIFO 深度 默认 配置 均 为 1， 意 
味 着 蜂鸟 E200 处 理 器 的 LSU 默认 只 支持 一 个 滞 外 交易 〈One Outstanding 
Transaction)， 此 配置 的 原因 在 于 减少 面积 开销 。 

。 最 终 的 返回 数据 经 过 操作 尺寸 〈Size) 对 齐 之 后 ， 经 过 LSU 的 写 回 接口 写 回 。 其 相 
关 源 代码 片段 如 下 所 示 。 

// e203 lsu ctrl.v 源 代码 片段 


wire ['E203 XLEN-1:0] rdata algn = 
(pre agu icb rsp rdata »» (pre agu icb rsp addr[1:0],3'b0]); 


wire rsp lbu - (pre agu icb rsp size -- 2'b00) & (pre agu icb rsp usign - 
' . 

' UA rsp lb = (pre agu icb rsp size == 2'b00) & (pre agu _ icb rsp usign = 

i "us rsp lhu - (pre agu icb rsp size -- 2'b01) & (pre agu icb rsp usign - 
' * 

i a rsp lh = (pre agu icb rsp size == 2'b01) & (pre agu icb rsp usign = 
1'b0); 


wire rsp lw = (pre agu icb rsp size == 2'b10); 
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wire ['E203 XLEN-1:0] sc excl wdata = pre agu icb rsp excl ok ? 'E203 XLE 
N'd0 : 'E203 XLEN'd1; 


// 对 返回 的 数据 进行 符号 扩展 和 操作 尺寸 对 齐 


assign lsu o wbck wdat = pre agu icb fsp excl ? sc excl wdata : 
( (('E203 XLEN(rsp lbu)) & ((24[ 1'b0]), rdata algn[ 7:0])) 
| (('E203 XLEN(rsp lb }} & {{24{rdata algn[ 7])]), rdata algn[ 7:01]) 
| (('E203 XLEN(rsp lhu]) & {{16{ 1'b0)), rdata algn[15:0]]) 


| (('E203 XLEN(rsp lh }} & ((16(rdata algn[15])), rdata algn[15:0]]) 
| (('E203 XLEN(rsp lw }} & rdata algn[31:0])); 

。 由 于 访问 不 同 的 存储 器 组 件 (包括 BIU, DTCM 和 ITCM) 可 能 会 出 现存 储 器 访问 
错误 (Memory Access Fault)， 可 以 通过 ICB 的 反馈 通道 (Response Channel) 返回 
标志 信号 所 得 。 如 果 出 现 此 错误 ， 则 产生 异常 标志 通过 LSU 的 写 回 接口 传送 给 交付 
模块 ， 交 付 模 块 则 据 此 产生 异常 (请 参见 第 13.5 节 了 解 更 多 异常 处 理 的 信息 )。 相 
关 的 源 代 码 片 段 如 下 所 示 。 


| // e203 1su ctrl.v 源 代 码 片段 


// 产生 存储 器 访问 错误 指示 信和 号 给 交付 接口 


assign lsu o cmt buserr = pre agu icb rsp err;// The bus-error exception 
generated 


// 出 现存 储 器 访问 错误 的 访 存 地 址 


assign lsu o cmt badaddr = pre agu icb rsp addr; 


// 产生 Load 指令 指示 信号 给 交付 接口 ， 将 用 于 产生 读 存 储 器 错误 异常 
(Load Access Fault Exception) 
assign lsu o cmt ld- pre agu icb rsp read; 


// 产生 Store 指令 指示 信号 给 交付 接口 ， 将 用 于 产生 写 存储 器 或 AMO 错误 异常 
(Store/AMO Access Fault Exception) 


assign lsu o cmt st- -pre agu icb rsp read; 


11.4.4 ITCM 4H DTCM 


第 11.1.3 节 讨 论 了 ITCM 和 DTCM ÆRA RRIF PAARA WIÉ 11-3 所 示 ， 
蜂鸟 E200 即 配备 了 专用 的 ITCM (数据 宽度 为 64 位 ) 和 DTCM (数据 宽度 为 32 位 )。 
当今 哈佛 结构 和 冯 *" 诺 依 曼 结构 的 严格 界限 已 经 变 得 模糊 ， 蜂 鸟 E200 处 理 器 核 的 实现 
同样 如 此 。 
e 蜂鸟 E200 处 理 器 有 专用 的 总 线 分 别 访问 ITCM 和 DTCM， 因 此 从 此 方面 来 看 ， 蜂 
E E200 处 理 器 核 属于 哈佛 结构 。 
e 如 图 11-3 所 示 ,ITCM 也 有 一 组 输入 ICB 总 线 接口 来 自 LSU 的 访问 ,也 就 是 说 ITCM 
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所 在 的 地 址 区 间 同 样 能 够 通过 LSU 被 读 和 写 指令 访问 到 用 于 存储 数据 。 因 此 从 
ITCM 的 角度 来 看 ， 蜂 鸟 E200 处 理 器 又 可 以 认为 属于 冯 * 诺 依 曼 结构 。 
注意 : 读 和 写 指令 对 于 ITCM 的 访问 主要 用 于 程序 的 上 电 初 始 化 (譬如 从 Flash 中 将 
程序 读 出 并 写 入 ITCM 中 )。 在 程序 正常 运行 时 ， 不 推荐 将 数据 段 放 入 ITCM， 人 否则 
性 能 无 法 得 到 最 大 化 利用 。 

ITCM 的 微 架 构 如 图 11-4 所 示 ， 要 点 如 下 。 


Ll 
IFU 访 问 接口 










IFU 访 问 接口 

(Command Channel) (Response Channel) 
LSU 访 问 接口 

(Command Channel) (Response Channel) 
ITCM 外 部 访问 接口 ITCM 外 部 访问 接口 

(Command Channel) (Response Channel) 


11-4. ITCM 微 架构 示意 图 


。 ITCM 的 存储 器 主体 由 一 块 数据 宽度 为 64 位 的 单口 SRAM 组 成 。 ITCM 的 大 小 和 基 
地 址 (位 于 全 局 地 址 空间 中 的 起 始 地 址 ) 可 以 通过 config.v 中 的 宏 定义 参数 配置 。 
请 参见 第 4.6 市 了 解 更 多 可 配置 的 信息 。 
e200 opensource 
|----rtl // 存放 RTL 的 目录 
| ----e203 // E203 核 和 Soc 的 RTL 目录 


|----core // 存放 e203 Core 的 RTL 代码 
|----config.v // 配置 文件 


。 ITCM 采用 数据 宽度 为 64 位 能 够 取得 更 低 的 功 耗 消耗 。 
首先 , 使 用 宽度 为 64 位 的 SRAM 在 物理 大 小 上 比 32 位 的 SRAM 面积 更 加 紧凑 ， 
此 同样 容量 ITCM 使 用 64 位 的 数据 宽度 比 使 用 32 位 的 数据 宽度 面积 更 小 。 
其 次 , 程序 在 执行 的 过 程 中 大 多 数 是 顺序 取 指 令 ， 而 64 位 宽 的 ITCM 可 以 一 次 取出 
64 位 的 指令 流 ， 相 比 于 从 32 位 宽 的 ITCM 中 连续 读 两 次 取出 64 位 的 指令 流 ， 只 读 
一 次 64 位 宽 的 SRAM 能 够 消耗 更 少 的 动态 功 耗 。 请 参见 第 7.3 节 了 解 更 多 取 指 部 分 
的 实现 细节 。 

。 ITCM 的 相关 源 代码 在 e200 opensource 目录 的 结构 如 下 。 关 于 GitHub 网 站 上 
e200 opensource 开源 项 目的 完整 代码 层次 结构 详解 ， 请 参见 第 17.1 节 。 


e200 opensource 
[^7--f£t1 // 存放 RTEL 的 目录 
|----e203 // E203 核 和 Soc 的 RTL 目录 
| ----core // 存放 e203 Core 的 RTL 代码 
|----e203 itcm ctrl.v // ICTM 模块 主体 控制 
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。 值得 再 次 强调 的 是 ，ITCM 有 一 组 输入 ICB 总 线 接 口 (数据 宽度 为 32 位 ) 来 自 LSU 
的 访问 ， 如 图 11-4 中 圆圈 所 示 。 也 就 是 说 ITCM 所 在 的 地 址 区 间 同 样 能 够 通过 LSU 
被 Load 和 Store 指令 访问 到 ， 从 而 可 以 用 于 存储 数据 。 

e ITCM 还 有 另外 两 组 输入 ICB 总 线 接口 ， 数 据 宽度 为 64 位 的 IFU 专用 ICB 接口 和 
数据 宽度 为 32 位 的 外 部 直接 访问 接口 (ITCM External ICB Interface)。ITCM 外 部 直 
接 访 问 接口 CITCM External ICB Interface) 是 专门 为 ITCM 配备 的 外 部 接口 ， 便 于 
SoC 的 其 他 模块 直接 访问 蜂鸟 E200 处 理 器 核 的 ITCM。 

e 由 于 ITCM 的 SRAM 宽度 为 64 位， 而 LSU 和 ITCM 外 部 直接 访问 接口 的 数据 宽度 
为 32 位 ， 因 此 其 需要 经 过 位 宽 转 换 。 

e 3 组 输入 ICB 总 线 经 过 一 个 “ICB 汇合 ”模块 将 其 汇合 成 为 一 组 ICB 总 线 ， 采 用 的 仲裁 
机 制 是 优先 级 仲裁 。IFU 总 线 具 有 更 高 的 优先 级 、LSU 次 之 、 外 部 直接 访问 接口 最 低 。 

e 经 过 汇合 之 后 的 ICB 总 线 的 命令 通道 进行 简单 处 理 后 作为 访问 ITCM SRAM 的 接 
口 。 同 时 将 此 操作 的 来 源 信 息 寄 存 ， 并 用 寄存 后 的 信息 指示 SRAM 返回 的 数据 分 发 
给 IFU、LSU 和 ITCM 外 部 直接 访问 接口 的 反馈 通道 。 

。 由 于 ITCM 控制 模块 的 源 代码 比较 简单 ， 请 读者 于 GitHub 上 的 e200_opensource 项 
目 中 自行 阅读 。 

DTCM 的 微 架构 如 图 11-5 所 示 ， 要 点 如 下 。 


EAI 协 处 理 器 访问 LSU 接 口 


(Command Channel) 


EAI 协 处 理 器 访问 LSU 接 口 


(Response Channel) 


DTCM 外 部 访问 接口 


(Command Channel) 


DTCM 外 部 访问 接口 


(Response Channel) 





图 11-5 DTCM 微 架 构 示 意图 


e DTCM 的 存储 器 主体 由 一 块 数据 宽度 为 32 位 的 单口 SRAM 组 成 。DTCM 的 大 小 和 
基地 址 (位 于 全 局 地 址 空间 中 的 起 始 地 址 〉 可 以 通过 config.v 中 的 宏 定义 参数 配置 。 
请 参见 第 4.6 节 了 解 更 多 可 配置 的 信息 。 


e200 opensource 
| -n-ftl // 存放 RTL 的 目录 
|----e203 // E203 ZAI Soc 的 RTL 目录 
| ----core // 存放 e203 Core 的 RTL 代码 
|----config.v // 配置 文件 


e DTCM 的 相关 源 代码 在 e200 opensource 目录 的 结构 如 下 。 关 于 GitHub 网 站 上 
e200 opensource 开源 项 目的 完整 代码 层次 结构 详解 ， 请 参见 第 17.1 节 。 
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| e200 opensource 
| | a7 tl // 存放 RTL 的 目录 
| |----e203 // E203 核 和 Soc RJ RTL 目录 
|----core // 存放 e203 Core 的 RTL 代码 
[^---e203 dtcm cGtrl.w // DCTM 模块 主体 控制 
。 DTCM 有 两 组 输入 ICB 总 线 接口 ， 分 别 来 自 于 LSU 和 外 部 直接 访问 接口 CDTCM 
External ICB Interface)。DTCM 外 部 直接 访问 接口 (DTCM External ICB Interface) 
是 专门 为 DTCM 配备 的 外 部 接口 ， 便 于 SoC 的 其 他 模块 直接 访问 蜂鸟 E200 处 理 器 
核 的 DTCM. 
。 两 组 输入 ICB 总 线 经 过 一 个 “ICB 汇合 ”模块 将 其 汇合 成 为 一 组 ICB 总 线 ， 采 用 的 
仲裁 机 制 是 优先 级 仲裁 ，LSU 总 线 具 有 更 高 的 优先 级 。 
。 经 过 汇合 之 后 的 ICB 总 线 的 命令 通道 进行 简单 处 理 后 作为 访问 DTCM SRAM 的 接 
口 。 同 时 将 此 操作 的 来 源 信息 寄存 ， 并 用 寄存 后 的 信息 指示 SRAM 返回 的 数据 分 发 
给 LSU 和 DTCM 外 部 直接 访问 接口 的 反馈 通道 。 
e 由 于 DTCM 控制 模块 的 源 代码 比较 简单 ,请 读者 于 GitHub 上 的 e200 opensource 项 
目 中 自行 阅读 。 


1.4.5 “A” 扩展 指令 处 理 


虽然 “A” 扩 展 子 集 对 于 蜂鸟 E200 这 样 的 极 低 功 耗 处 理 器 而 言 未 必 是 必须 要 支持 的 一 
部 分 ， 但 是 由 于 RV32IMAC 架构 组 合 是 目前 比较 主流 的 工具 链 支持 版 本 ， 因 此 开源 的 蜂鸟 
E203 处 理 器 核 选 择 默 认 文 持 “A” 扩 展 子 集 。 

如 第 11.3.3 节 所 述 ,“A” 扩 展 指令 分 为 两 类 ， 蜂 鸟 E200 处 理 器 对 其 的 硬件 实现 以 下 了 予 
以 分 别论 述 。 

1. Load-Reserved 和 Store-Conditional 指令 的 硬件 实现 

为 了 能 够 支持 RISC-V 架构 中 定义 的 Load-Reserved 和 Store-Conditional 指令 的 行为 ， 蜂 
鸟 E200 Æ LSU 单元 中 设置 了 一 个 互 斥 检测 器 (Exclusive Monitor), 该 互 斥 检测 器 的 行为 如 下 。 

e 当 有 一 个 Load-Reserved 指令 执行 时 ， 设 置 互 斥 检 测 器 的 有 效 标 志 ， 并 将 互 斥 检测 器 

中 存 入 该 指令 访问 存储 器 的 地 址 。 

e 当 有 任何 一 个 写 指令 (包括 普通 的 写 或 者 Store-Conditional) 执行 时 ， 如 果 写 指令 访问 

存储 器 的 地 址 和 互 斥 检 测 器 中 存储 的 地 址 一 样 ， 则 将 互 斥 检 测 器 的 有 效 标志 清除 掉 。 

e。 如 果 发 生 了 任何 的 异常 和 中 断 或 者 执行 了 mret 指令 ， 也 会 将 互 斥 检测 器 的 有 效 标志 

iB ER f. 
e 当 有 一 条 Store-Conditional 指令 执行 时 ， 如 果 互 斥 检测 器 里 的 有 效 位 为 高 , 且 其 中 保 
存 的 地 址 值 和 该 Store-Conditional 指令 访问 存储 器 的 地 址 值 相 同 ， 则 意味 着 该 
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Store-Conditional 指令 能 够 执行 成 功 ， 否 则 执行 失败 。 

如 果 Store-Conditional 执行 成 功 ,， 则 会 真正 问 存储 器 中 写 入 数值 ， 且 同 结 果 寄 存 器 中 
写 回 的 结果 为 0; 如 果 该 Store-Conditional 执行 失败 ， 则 会 放弃 写 入 存储 器 ， 并 且 癌 
结果 寄存 器 中 写 回 结果 为 1。 

。 注意 : 理论 上 RISC-V 的 Load-Reserved 和 Store-Conditional 指令 可 以 支持 获取 (acquire ) 
与 释放 (release) 属性 。 由 于 蜂鸟 E200 中 存储 器 访问 指令 严格 按 顺 序 执行 ， 因 此 等 效 
于 永远 将 Load-Reserved 和 Store-Conditional 指令 当 作 同时 具备 获取 与 释放 属性 来 实 
现 。 有 关 获 取 与 释放 属性 请 参见 附录 A14.5 节 了 解 Load-Reserved 和 Store-Conditional 
指令 细节 。 

e 注意 : 由 于 该 互 斥 检测 器 (Exclusive Monitor) 存在 于 蜂鸟 E200 的 内 部 ， 因 此 它 仅 
跟踪 记录 了 蜂鸟 E200 单 核对 于 存储 器 空间 的 访问 。 但 是 在 多 核 系 统 中 , 假设 其 他 的 
核 或 者 模块 也 访问 了 相同 的 地 址 空间 ， 则 无 法 被 检测 到 。 因 此 蜂 乌 E200 的 该 
Exclusive Monitor 实现 只 能 够 在 单 核 独 自 访问 存储 器 时 保证 程序 执行 Load-Reserved 
和 Store-Conditional 指令 的 结果 正确 。 而 当 有 多 个 核 或 者 其 他 模块 (譬如 DMA) 同 
时 也 在 访问 互 斥 检测 器 记录 的 地 址 时 ， 则 可 能 会 造成 Load-Reserved 和 
Store-Conditional 指令 的 结果 无 法 准确 反映 。 

之 所 以 存在 此 局 限 性 ， 是 因为 蜂 乌 E200 文 持 “A” 扩 展 子 集 的 意图 ， 主 要 是 为 了 使 
其 能 够 使 用 最 常见 的 RV32IMAC 工具 链 ， 而 并 非 为 了 文 持 严格 的 多 核 功能 。 同 时 蜂 
鸟 E200 的 开发 者 认为 ， 蜂 乌 E200 此 种 类 型 的 超 低 功 耗 处 理 器 核 的 大 多 数 应 用 场景 
应 为 单 核 场景 。 
以 上 功能 在 LSU 模块 中 的 相关 源 代 码 片 段 如 下 所 示 。 
| // e203 1su ctrl.v 源 代 码 片段 


wire excl flg r; 
wire ['E203 ADDR SIZE-1:0] excl addr r; 
wire icb cmdaddr eq excladdr - (arbt icb cmd addr -- excl addr r); 


// 当 有 一 个 Load-Reserved 指令 执行 之 时 ， 将 互 斥 检 测 器 的 有 效 标志 设置 起 来 。 
wire excl flg set = splt fifo wen & arbt icb cmd usr[USR PACK EXCL] & arb 
t icb cmd read & arbt icb cmd excl; 
// 当 有 任何 一 个 写 指令 执行 之 时 ， 如 果 写 指令 的 访 存 地 址 和 互 斥 检测 器 中 存储 的 有 效 地 址 一 样 ， 则 将 互 
斥 检 测 器 的 有 效 标志 清除 掉 。 
wire excl flg clr = (splt fifo wen & (~arbt icb cmd read) & icb cmdaddr e 
| q excladdr & excl flg r) 
// 并 且 如 果 发 生 了 任何 的 异常 和 中 断 或 者 执行 了 mret 指令 , 也 会 将 互 斥 检测 器 的 有 效 标志 清除 掉 。 
| commit trap | commit mret; 
wire excl flg ena * excl flg set | excl flg clr; 
wire excl flg nxt = excl flg set | (-excl fig clr); 
sirv gnrl dfflr (1) excl fig dffl (excl flg ena, excl flg nxt, excl flg 
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| r, clk, rst n); 
| 
// 当 有 一 个 Load-Reserved 指令 执行 之 时 ， 将 互 斥 检 测 器 的 有 效 标志 设置 起 来 时 ， 也 将 互 斥 检测 器 
中 存 入 该 指令 访问 存储 器 的 地 址 。 

wire excl addr ena - excl flg set; 

wire [' E203 -ADDR SIZE-1:0] excl addr nxt = arbt icb cmd addr; 

sirv gnrl dfflr (t E203 ADDR SIZE) excl  addr dffl (excl. addr ena, excl ad 
| dr nxt, excl addr r, clk, rst n); 


// 判 断 Store-Conditional 指令 是 否 能 够 执行 成 功 
// 如 果 Store-Conditional 指令 执行 时 ， 互 斥 检测 器 里 的 有 效 位 为 高 ， 且 其 中 保存 的 地 址 
值 和 Store-Conditional 指令 访问 存储 器 的 地 址 值 相 同 ， 则 执行 成 功 。 
wire arbt icb cmd scond true = arbt icb cmd scond & icb cmdaddr eq exclad 
dr & excl flg r; 


// 如 果 Store-Conditional 指令 不 能 够 执行 成 功 ,， 则 将 ICB 总 线 命令 通道 的 Write-Mask 信号 设置 
为 0， 这 样 就 不 会 真正 向 存储 器 中 写 入 数值 。 
wire ['E203 XLEN/8-1:0] arbt icb cmd wmask pos = 
(arbt icb cmd scond & (-arbt icb cmd scond true)) 
? ['E203 XLEN/8{1'b0}} : arbt icb cmd wmask; 





// 如 果 Store-Conditional 指令 不 能 够 执行 成 功 , 则 向 结果 寄存 器 写 回 的 值 是 0, 否则 写 回 的 值 是 1。 

wire ['E203 XLEN-1:0] sc excl wdata = arbt icb rsp scond true ? 'E203 XLE 
| N'dO : 'E203 XLEN'd1; 
2. AMO (Atomic Memory Operation) 指令 的 硬件 实现 
为 了 能 够 支持 RISC-V 架构 中 定义 的 AMO 指令 的 行为 , 蜂鸟 E200 在 AGU 单元 中 使 用 
了 状态 机 将 AMO 指令 拆 分 为 厨 干 个 不 同 的 微 操 作 ， 其 步骤 分 别 为 如 下 。 

。 首先 拆 分 出 一 个 存储 器 读 操 作 ， 等 竺 其 读 操作 的 数据 返回 ， 并 将 返回 的 数据 寄存 。 

e。 然后 将 “寄存 的 读 操作 返回 数据 ”进行 相应 的 算术 运算 , 将 运算 的 结果 寄存 在 电路 中 。 

。 再 次 发 起 一 个 存储 器 写 操作 将 “寄存 的 运算 结果 ” 写 入 存储 器 ,等待 其 反馈 返回 ( 确 
定 写 操作 是 否 成 功 ， 是 否 发 生存 储 器 访问 错误 )。 

e 最 后 ， 如 果 在 上 述 过 程 中 没有 发 生存 储 器 访问 错误 ， 则 将 “寄存 的 读 操作 返回 数据 ” 
写 回 该 指令 的 结果 寄存 磊 。 

。 注意 : 理论 上 RISC-V 的 AMO 指令 可 以 文 持 获 取 与 释放 属性 。 由 于 蜂 乌 E200 中 存 
储 器 访问 指令 严格 按 顺 序 执行 ， 因 此 等 效 于 永远 将 AMO 指令 当 作 同时 具备 获取 与 
释放 属性 来 实现 。 有 关 获 取 与 释放 属性 请 参见 附录 A14.5 节 了 解 AMO 指令 细节 。 

。 注意 : 由 于 蜂鸟 E200 需要 在 总 线 上 先后 进行 两 次 操作 ， 拆 分 出 如 上 这 些微 操作 ,第 
一 次 是 读 操作 ， 第 二 次 是 写 操 作 ， 在 此 期 间 并 未 将 外 部 总 线 锁定 。 因 此 在 多 核 系统 
H, 假设 其 他 的 核 或 者 模块 也 访问 了 相同 的 地 址 空间 , 则 破坏 了 其 原子 性 。 蜂 乌 E200 
的 实现 只 能 够 在 单 核 独自 访问 存储 器 时 保证 程序 执行 AMO 指令 的 结果 正确 ; 而 当 
有 多 个 核 或 者 其 他 模块 (譬如 DMA) 同时 也 在 访问 AMO 指令 的 地 址 时 ， 则 会 造成 
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AMO 指令 执行 ， 无 法 真正 实现 原子 性 。 
之 所 以 存在 此 局 限 性 ， 是 因为 蜂鸟 E200 支持 “A” 扩 展 子 集 的 意图 主要 是 为 了 使 其 
能 够 使 用 最 常见 的 RV32IMAC 工具 链 ， 而 并 非 为 了 支持 严格 的 多 核 功 能 。 同 时 蜂 乌 
E200 的 开发 者 认为 ， 蜂 鸟 E200 此 种 类 型 的 超 低 功 耗 处 理 器 核 的 大 多 数 应 用 场景 应 
为 单 核 场 景 。 

以 上 功能 在 AGU 模块 中 的 相关 源 代 码 片 段 如 下 所 示 。 

// e203 exu alu lsuagu.v 源 代码 片段 


// 此 模块 作为 AGU 的 源 代码 模块 ， 其 中 主要 实现 了 相关 的 控制 和 选择 ， 并 没有 包含 实际 的 运算 数据 
通路 ， 真 实 的 数据 通路 共享 ALU 的 运算 数据 通路 。 


// 以 下 状态 机 控制 AMO 指令 的 拆 分 。 
localparam ICB STATE WIDTH = 4; 





wire icb state ena; 
wire [ICB STATE WIDTH-1:0] icb state nxt; 
wire [ICB STATE WIDTH-1:0] icb state r; 


// 空闲 状态 ， 该 状态 下 可 以 开始 发 送 第 一 次 读 操作 
localparam ICB STATE IDLE = 4'd0; 


// 已 经 发 送 了 第 一 次 读 操作 ， 等 待 读数 据 返 回 的 状态 
localparam ICB STATE 1ST = 4'dIl; 


// 发 送 第 二 次 写 操作 的 状态 
localparam ICB STATE WAIT2ND = 4'd2; 


// 已 经 发 送 了 第 二 次 写 操 作 ， 等 待 反馈 返回 的 状态 
localparam ICB STATE 2ND = 4'd3; 





// 收 到 第 一 次 读 操作 返回 的 读数 据 后 ， 复 用 ALU 的 运算 数据 通路 进行 运算 的 状态 
localparam ICB STATE AMOALU = 4'd4; 


/ /进行 运算 后 的 结果 已 经 寄存 在 电路 中 准备 好 ， 并 正在 发 送 写 操作 的 状态 
localparam ICB STATE AMORDY = 4'd5; 


// 写 操作 的 反馈 已 经 返回 ， 将 指令 的 结果 写 回 结果 寄存 器 中 的 状态 
localparam ICB STATE WBCK = 4'd6; 


wire [ICB STATE WIDTH-1:0] state idle nxt 
wire [ICB STATE WIDTH-1:0] state 1st nxt ; 
wire [ICB STATE WIDTH-1:0] state wait2nd nxt; 
wire [ICB STATE WIDTH-1:0] state 2nd nxt ; 
wire [ICB STATE WIDTH-1:0] state amoalu nxt ; 
wire [ICB STATE WIDTH-1:0] state amordy nxt ; 
wire [ICB STATE WIDTH-1:0] state wbck nxt ; 
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wire state lst exit ena ; 
wire state wait2nd exit ena ; 
wire state 2nd exit ena ; 


wire state amoalu exit ena ; 
wire state amordy exit ena ; 
wire state wbck exit ena ; 


wire icb sta is idle (icb state r 
wire icb sta is 1st (icb state r 
wire icb- sta is amoalu = (icb state r 
wire icb sta is amordy = (icb state r 
wire icb sta is wait2nd (icb state r 
wire icb sta is 2nd (icb state r 
wire icb sta is wbck (icb state r 


ICB STATE IDLE  ); 
ICB STATE 1ST ); 
ICB STATE AMOALU ); 
ICB STATE AMORDY ); 
ICB STATE WAIT2ND); 
ICB STATE 2ND E 
ICB STATE WBCK ) 


// 状 态 机 的 状态 寄存 器 。 
sirv gnrl dfflr $(ICB STATE WIDTH) icb state dfflr (icb state ena, icb st 
ate nxt, icb state r, clk, rst n); 


// 寡 存 第 一 次 读 操作 返回 的 数据 ， 但 是 此 模块 并 没有 实际 例 化 寄存 器 ， 而 是 使 用 ALU 的 数据 通路 模块 中 
的 寄存 器 〈 与 多 周期 乘除 法 器 复 用 ) 。 
assign leftover ena = agu icb rsp hsked & ( 
1'b0 
'ifdef E203 SUPPORT AMO//|[ 
| amo lstuop 
| amo 2nduop 
'endif//E203 SUPPORT AMO) 
); 
assign leftover nxt - 
('E203 XLEN[1'5b0]) 
'ifdef E203 SUPPORT AMO//| 
| (('E203 XLEN(amo 1stuop)) & agu icb rsp rdata) 
| (('E203 XLEN(amo 2nduop)) & leftover r) 
'endif//E203 SUPPORT AMO) 


, 


// 寄 存 算术 运算 的 结果 ， 但 是 此 模块 并 没有 实际 例 化 寄存 器 ， 而 是 使 用 ALU 的 数据 通路 模块 中 的 寄存 器 
(与 多 周期 乘除 法 器 复 用 ) 。 


assign leftover 1 ena = 1'bO 
'ifdef E203 SUPPORT AMO//| 

| icb sta is amoalu 
'endif//E203 SUPPORT AMO] 


. 
d 


assign leftover 1 nxt = agu req alu res; 


// 向 ALU 共享 的 运算 数据 通路 发 送 操作 数 
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| assign agu req alu opi = ... 
assign agu req alu op2 = ss» 


// 向 ALU 共享 的 运算 数据 通路 发 送 具体 的 运算 类 型 ， 
assign agu req alu add 三 
assign agu req alu swap (icb sta is amoalu ) ; 
assign agu req alu and (icb sta is amoalu agu i amoand ); 
assign agu req alu or (icb sta is amoalu agu i amoor ); 
x ) ; 
i ); 


& agu 1 amoswap 
& 
& 
assign agu req alu xor (icb sta is amoalu & agu i amoxor 
& 
& 
& 
& 


assign agu req alu max (icb sta is amoalu agu i amomax 

assign agu req alu min (icb sta is amoalu agu i amomin ); 
assign agu req alu maxu Es agu i amomaxu ); 
assign agu req alu minu agu i amominu ); 


(icb sta is amoalu 
(icb sta is amoalu 
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11.4.6 Fence 与 Fence.| 指令 处 理 


在 第 11.3.2 节 中 介绍 了 Fence 和 Fence.I 指令 的 功能 , 蜂鸟 E200 处 理 絮 核对 其 的 硬件 实 
现 要 点 如 下 。 


理论 上 RISC-V 的 Fence 指令 可 以 区 分 IORW 属性 。 蜂 鸟 E200 永远 将 Fence 指令 当 
作 “fence iorw, iorw” 来 实现 。 有 关 IORW 属性 请 参见 附录 A14.2 节 了 解 Fence 指令 
AT o 

在 流水 线 的 派 遗 点 , 派 遗 Fence 和 Fence.I 指令 之 前 必须 等 待 所 有 已 经 浪 外 的 指令 均 
执行 完毕 。 这 是 一 种 最 为 简单 的 实现 方案 ， 较 适合 蜂 乌 E200 这 样 级 别 的 处 理 嚣 核 。 
只 需 等 到 所 有 湾 外 指令 均 执 行 完毕 ， 也 就 意味 着 所 有 的 访 存 操作 均 已 经 完成 ， 能 够 
达到 Fence 和 Fence.l 指令 需要 分 隔 其 前 后 指令 访 存 操作 的 效果 。 相 关 源 代码 在 
e200 opensource 目录 的 结构 ， 以 及 相关 的 源 代 码 上 户 段 如 下 所 未 。 


e200 opensource 


|----rtl // 存放 RTL 的 目录 
|----e203 // E203 核 和 Soc HJ RTL 目录 
|----core // 存放 e203 Core 的 RTL 代码 
|----e203 exu disp.v // 指令 派遣 控制 模块 


// e203 exu disp.v 源 代码 片段 


// 判断 当前 指令 是 Fence 或 者 Fence .I 指令 
wire disp fence fencei = (disp i info grp == 'E203 DECINFO GRP BJP) & 
( disp i info ['E203 DECINFO BJP FENCE] | disp i 


info ['E203 DECINFO BJP FENCEI]); 


// 派遣 指令 的 条 件 信 号 ， 如 果 当 前 是 Fence 或 者 Fence .I 指令 ， 则 必须 等 待 OITF 为 空 ，OITE ic 


| 录 了 所 有 的 滞 外 指令 ， 如 果 它 为 空 则 意味 着 所 有 滞 外 指令 已 经 完成 。 
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wire disp condition = 


| 
| is empty 
| & (disp fence fencei ? oitf empty : 1'b1) 


。 如 第 11.3.2 节 中 所 述 ， 对 于 Fence.I 指令 而 言 ， 需 要 保证 在 Fence.I 之 后 执行 的 取 指 
令 操作 一 定 能 够 观测 到 在 Fence.I 指令 之 前 执行 的 指令 访 存 结果 。Fence.I 指令 在 蜂 
E E200 处 理 器 核 中 将 其 被 当 作 一 种 特殊 的 流水 线 冲 刷 (Pipeline Flush) 指令 来 执行 ， 
其 硬件 实现 与 第 9 章 中 摘 述 的 分 支 指 令 解析 一 样 ， 在 e203 exu branchslv 模块 中 处 
理 。 相 关 源 代码 在 e200 opensource 目录 的 结构 中 ， 部 分 相关 源 代 码 片 段 如 下 所 示 。 


e200 opensource 
|----rtl // 存放 RTL 的 目录 
| ----e203 // E203 核 和 Soc 的 RTL 目录 
|----core // 存放 e203 Core 的 RTL 代码 
|----e203 exu commit.v // 交付 模块 顶层 
|----e203 exu branchslv.v// 交付 模块 中 处 理 Fence . 工 指令 的 子 模块 





| // e200 exu branchslv.v 源 代 码 片段 


| // 生成 流水 线 冲 刷 请 求 (Pipeline Flush Request) ， 包 括 了 Fence.I 指令。 


| wire brchmis need flush = ( 
(cmt i bjp & (cmt i bjp prdt ^ cmt i bjp rslv)) 
/ / If it is a Fencel instruction, it is always Flush 
| cmt i fencei 
/ / If it is a RET instruction, it is always jump 
| cmt i mret 
/ / If it is a DRET instruction, it is always jump 
| cmt i dret 
) ; 


// 如 果 是 Fence.I 指令， 则 造成 流水 线 冲 刷 。 使 用 Fence . 工 指 令 接 下 来 的 一 条 指令 的 PC 作为 冲刷 请 
 3K PC (Flush PC), ， 意 味 着 Fence .I 指令 之 后 的 指令 流 会 被 重新 取 指 执行 一 遍 ， 则 达到 了 Fence .I 指令 
' “需要 保证 在 Fence .I 之 后 执行 的 取 指 令 操 作 一 定 能 够 观测 到 在 Fence. 1 指令 之 前 执行 指令 的 访 存 结果 ”的 

效果 。 


| 
| 
| 
| 


assign brchmis flush pc = 


| (cmt i fencei | (cmt i bjp & cmt i bjp prdt)) ? ( 
cmt i pc + (cmt i rv32 ? 'E200 PC SIZE'd4 : 'E200 PC SIZE'qd2)) 


"nn 
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11.4.7 BIU 


除了 ITCM 和 DTCM 之 外 ， 蜂 鸟 E200 处 理 器 核 还 能 通过 BIU (Bus Interface Unit) 访 
问 外 部 的 存储 器 ， 请 参见 第 12.4 节 了 解 关 于 BIU 的 更 多 信息 。 


11.4.8 ECC 


由 于 符 入 在 处 理 器 中 的 SRAM 容易 在 极端 情况 下 受到 外 界 电离 辐射 的 影响 ， 从 而 使 其 
保存 的 比特 位 发 生 翻转 ， 使 得 SRAM 中 的 数值 发 生 改 变 造 成 错误 。 因 此 在 很 多 高 可 靠 性 峰 
入 式 处 理 器 中 ， 均 使 用 ECC (Error Checking and Correction) 算法 对 SRAM 进行 保护 ，ECC 
保护 后 的 SRAM 可 以 自动 发 现 1 位 错误 并 自动 纠正 ， 而 对 2 位 错误 可 以 发 现 此 错误 并 将 之 
ER. 

蜂 乌 E200 处 理 器 核 也 可 以 配置 ECC 算法 ， 对 ITCM 和 DTCM 的 SRAM 进行 保护 ， 但 
是 由 于 开源 的 E200 处 理 器 核 并 不 提供 此 配置 选项 ， 因 此 本 书 在 此 不 做 装 述 。 


11.4.9 ”小结 


蜂鸟 E200 处 理 器 核 使 用 了 两 级 流水 线 的 超 低 功 耗 架构 〈 与 Cortex-M0+ 类 似 )， 配 备 了 
ITCM 和 DTCM 及 其 专用 的 访问 通道 (与 Cortex-M3 类 似 )， 并 配备 了 多 样 的 外 部 存储 器 访 
问 接口 (与 Cortex-M4 类 似 )。 可 以 说 是 集合 了 超 低 功 耗 处 理 器 的 优点 于 一 喘 ， 是 一 球 精 心 
设计 的 处 理 器 核 。 


$8122 黑 盒子 的 窗口 
一 一 总 线 接口 单元 BIU 
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对 于 一 般 处 理 器 核 的 使 用 者 ， 辟 如 软件 人 员 或 者 SoC 集成 人 员 而 言 ， 可 以 将 处 理 器 核 
当 作 一 个 黑 盒 子 ， 从 而 也 许 不 用 过 于 关心 处 理 器 核 的 内 部 运行 , 但 是 却 一 定 需 要 了 解 并 使 用 
处 理 器 核 这 个 黑 盒子 的 对 外 窗口 ， 这 个 窗口 便 是 总 线 接口 单元 (Bus Interface Unit, BIU). 

本 章 将 介绍 蜂鸟 E200 处 理 器 核 的 BIU 模块 , 介绍 其 使 用 的 接口 协议 ICB (Internal Chip 
Bus) 以 及 BIU 模块 的 微 架 构 和 源码 分 析 。 


12.1 IEN 
在 介绍 蜂鸟 E200 处 理 器 核 的 总 线 接口 之 前 ， 本 节 先 简 述 几 种 常见 的 片上 总 线 。 
12.1.1 AXI 


AXI (Advanced eXtensible Interface) 是 一 种 总 线 协议 ， 是 ARM 公司 提出 的 AMBA 
( Advanced Microcontroller Bus Architecture) 3.0 协议 中 最 重要 的 部 分 ， 是 一 种 面向 高 性 能 、 
高 带宽 、 低 延迟 的 片 内 总 线 。 它 有 如 下 特点 。 

。 分 离 的 地 址 和 数据 阶段 。 

e 支持 地 址 非 对 齐 的 数据 访问 ， 使 用 字 节 掩 码 (Byte Strobes) 来 控制 部 分 写 操作 。 

。 使 用 基于 突 发 的 交易 类 型 (Burst-based Transaction )， 对 于 突 发 操作 仅 需 要 发 送 起 始 

地 址 ， 即 可 传输 大 片 的 数据 。 

。 分 离 的 读 通道 和 写 通道 ， 总 共有 5$ 个 独立 的 通道 。 

e 支持 多 个 清 外 交易 (Multiple Outstanding Transaction). 

e 文 持 乱 序 返回 乱 序 完成 。 

e 非常 易于 添加 流水 线 级 数 以 获得 高 频 的 时 序 。 

AXI 是 目前 应 用 最 为 广泛 的 片上 总 线 , 是 处 理 器 核 以 及 高 性 能 SoC 片上 总 线 的 事实 标准 。 


12.1.2 AHB 


AHB (Advanced High Performance Bus) 是 ARM 公司 提出 的 AMBA (Advanced 
Microcontroller Bus Architecture) 2.0 协议 中 重要 的 部 分 ， 它 总 共有 3 个 通道 ， 具 有 的 特性 包 
插 ， 单 个 时 钟 边 沿 操作 、 非 三 态 的 实现 方式 、 支 持 突 发 传输 、 支 持 分 段 传 输 以 及 支持 多 个 主 
控制 器 等 。 

AHB 总 线 是 ARM 公司 推出 AXI 总 线 之 前 主要 推广 的 总 线 ， 虽 然 目 前 高 性 能 的 SoC 中 
主要 使 用 AXI 总 线 ， 但 是 AHB 总 线 在 很 多 低 功 耗 SoC 中 仍然 大 量 使 用 。 





12.4 片上 总 线 协议 概述 | 205 


12.1.3 APB 


APB (Advanced Peripheral Performance Bus) 是 ARM 公司 提出 的 AMBA (Advanced 
Microcontroller Bus Architecture) 协议 中 重要 的 部 分 。APB 主要 用 于 低 市 宽 周 边 外 设 之 间 的 
连接 ， 例 如 UART 等 。 它 的 总 线 架 构 不 像 AXI 和 AHB 那样 支持 多 个 主 模块 ， 在 APB 总 线 
协议 中 里 面 唯一 的 主 模块 就 是 APB 桥 。 其 特性 包括 两 个 时 钟 周 期 传输 ， 无 须 等 待 周期 和 回 
MaS, PZE, RA 4 个 控制 信和 号。 

由 于 ARM 公司 长 时 间 的 推广 APB 总 线 协 议 ， 使 之 几乎 成 为 了 低速 设备 总 线 的 事实 标 
准 ， 目 前 很 多 片上 低速 设备 和 IP 均 使 用 APB 接口 。 


12.1.4 TileLink 


TileLink 总 线 是 伯克利 大 学 定义 的 一 种 高 速 片上 总 线 协议 , 它 诞生 的 初衷 主要 是 为 了 定义 
一 种 标准 的 支持 缓存 一 至 性 (Cache Coherence) 的 协议 。 并 且 它 力图 将 不 同 的 缓存 一 致 性 协 
议和 总 线 的 设计 实现 相 分 离 ， 使 得 任何 的 绥 存 一 致 性 协议 均 可 遭 循 TileLink 协议 予以 实现 。 

TileLink 有 5 个 独立 的 通道 ， 虽 然 TileLink 的 初衷 是 为 了 支持 缓存 一 至 性， 但 是 它 也 具 
备 片上 总 线 的 所 有 特性 ， 能 够 文 持 所 有 存储 器 访问 所 需 的 操作 类 型 。 


12.1.5 总结 比较 


以 上 介绍 了 各 种 总 线 的 优点 , 但 各 总 线 也 有 其 缺点 (针对 蜂鸟 E200 处 理 器 而 言 ) 总 结 
如 下 。 

。 AXI 总 线 是 目前 应 用 最 为 广泛 的 高 性 能 总 线 ， 但 是 主要 应 用 于 高 性 能 的 片上 总 线 。 
AXI 总 线 有 5 个 通道 ， 分 离 的 读 和 写 通道 能 够 提供 很 高 的 吞吐 率 ， 但 是 也 需要 主 设 
备 〈Master) 自行 维护 读 和 写 的 顺序 ， 控 制 相对 复杂 ， 且 经 常 在 SoC 中 集成 不 当 造 
成 各 种 死 锁 。 同 时 5 个 通道 硬件 开销 过 大 ， 另 外 在 大 多 数 的 极 低 功 耗 处 理 器 SoC 中 
都 没有 使 用 AXI 总 线 。 如 果 蜂 乌 E200 处 理 器 核 采 用 AXI 总 线 ， 一 方面 增 大 硬件 开 
销 ， 男 一 方面 会 给 用 户 造 成 负担 (需要 将 AXI 转换 成 AHB 或 者 其 他 总 线 用 于 低 功 
耗 的 SoC)， 因 此 AXI 总 线 不 是 特别 适合 蜂鸟 E200 这 样 的 极 低 功 耗 处 理 器 核 。 

。 AHB 总 线 是 目前 应 用 最 为 广泛 的 高 性 能 低 功 耗 总 线 ，ARM 的 Cortex-M 系列 大 多 数 
处 理 器 核 均 采 用 AHB 总 线 。 但 是 AHB 总 线 有 若干 非常 明显 的 局 限 性 ， 首 先 其 无 法 
像 AXI 总 线 那样 容易 地 添加 流水 线 级 数 ， 其 次 AHB 总 线 无 法 文 持 多 个 滞 外 交易 
(Multiple Outstanding Transaction )， 再 次 其 握手 协议 非常 别扭 。 将 AHB 总 线 转换 成 
其 他 Valid-Ready 握手 类 型 的 协议 〈 璧 如 AXI 和 TileLink 等 握手 总 线 接 口 ) 鼎 不 容 
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Àj, PS] pix SEI PRIX DUREE, DS an AES E200 采用 AHB 总 线 作为 
接口 也 会 带 来 同样 的 若干 局 限 性 。 

。 APB 总 线 是 一 种 低速 设备 总 线 ， 吞 吐 率 比 较 低 ， 不 适合 作为 主 总 线 使 用 ， 因 此 更 加 
不 适用 于 作为 蜂鸟 E200 处 理 器 核 的 数据 总 线 。 

。 TileLink 总 线 主要 在 伯克利 大 学 的 项 目 中 使 用 ， 其 应 用 并 不 广泛 ， 文 档 也 不 是 特别 
+8, JHH TileLink 总 线 协议 比较 复杂 ， 因 此 TileLink 总 线 对 于 蜂 乌 E200 这 样 的 极 
低 功 耗 处 理 器 核 不 是 特别 适合 。 

基于 如 上 的 分 析 , 为 了 克服 这 几 种 缺陷 ,蜂鸟 E200 处 理 器 核 采 用 自 定义 的 总 线 协议 ICB。 

AR ICB 的 内 容 详 见 下 一 节 。 





12.2 自 定 义 总 线 协议 1CB 


12.2.1 ICB 总 线 协 议 简 介 


为 了 克服 上 一 节 中 所 述 各 总 线 的 缺陷 ， 蜂 鸟 E200 处 理 器 开发 过 程 中 定义 了 一 种 自 定义 
总 线 协 议 ICB (Internal Chip Bus)， 用 于 蜂鸟 E200 处 理 器 核 内 部 使 用 ， 同 时 也 可 作为 SoC 
中 的 总 线 使 用 。 
ICB 总 线 的 初衷 是 为 了 尽 可 能 地 结合 AXI 总 线 和 AHB 总 线 的 优点 ， 兼 具 高 速 性 和 易 用 
性 ， 它 具有 如 下 特性 。 
。 相 比 AXI 和 AHB 而 言 , ICB 的 协议 控制 更 加 简单 , 仅 有 两 个 独立 的 通道 。 如 图 12-1 
所 示 ， 读 和 写 操作 共用 地 址 通道 ， 共 用 结果 返回 通道 。 


地 址 和 | 地 址 和 | 地 址 和 | 地 址 和 
E TX 


返回 通道 
9 pr ETETE ERE rn 
«— «— «— «— 
图 12-1 ICB 总 线 通 道 结构 
e 与 AXI 总 线 一 样 ， 采 用 分 离 的 地 址 和 数据 阶段 。 


。 与 AXI 总 线 一 样 ， 采 用 地 址 区 间 寻 址 ， 支 持 任意 的 主 从 数目 ， 璧 如 一 主 一 从 、 一 
多 从 、 多 主 一 从 、 多 主 多 从 等 拓扑 结构 。 
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。 与 AHB 总 线 一 样 ， 每 个 读 或 者 写 操作 都 会 在 地 址 通道 上 产生 地 址 ， 而 非 像 AXI 中 
只 产生 起 始 地 址 。 

。 与 AXI 总 线 一 样 ， 支 持 地 址 非 对 齐 的 数据 访问 ， 使 用 字 节 手 码 CWrite Mask) 来 控 
制 部 分 写 操作 。 

。 与 AXI AX He xH T€ (Multiple Outstanding Transaction). 

。 与 AHB 总 线 一 样 ， 不 支持 乱 序 返回 乱 序 完成 ， 反 馈 通 道上 必须 按 顺 序 返回 结果 。 

。 AXI 总 线 一 样 ， 非 常 易 于 添加 流水 线 级 数 以 获得 高 频 的 时 序 。 

。 协议 非常 简单 , 易于 桥接 转换 成 其 他 总 线 类 型 , 璧 如 AXI AHB, APB 或 者 TileLink 
等 总 线 。 

对 于 蜂鸟 E200 这 样 的 低 功 耗 处 理 器 而 言 ，ICB 总 线 能 够 被 用 于 几乎 所 有 的 场合 ， 包 括 

作为 内 部 模块 之 间 的 接口 、SRAM 模块 接口 、 低 速 设备 总 线 以 及 系统 存储 总 线 等 。 


12.2.2 ICB 总 线 协议 信号 


ICB 总 线 主 要 包含 2 个 通道 ， 如 图 12-1 所 示 。 

e 命令 通道 (Command Channel): 主要 用 于 主 设备 向 从 设备 发 起 读 写 请 求 。 
。 返回 通道 (Response Channel): 主要 用 于 从 设备 同 主 设备 返回 读 写 结果 。 
ICB 总 线 信 号 列表 如 表 12-1 所 示 。 


通道 ^ d 


C oup | 1 — [ “ie oma aia | TURRAREXNENWARS 
wa | 1 [memi | Asknrnsumesesas 
[ owu | ow | ks ines 
命令 通道 B 
[oma | 1 | wona mod | aa 
C ouu | ow | ieh oma wana | Mf 
C oumu | Dwa | iet oma mi | EE 
La | | kewecaa AEEA 
C oum | 1 | eoa | Eene 
反馈 通道 
ET 
a | 1 | men RAE 


12.2.3. ICB 总 线 协议 时 序 


本 节 将 描述 ICB iR ZR RUSSIE. 
如 图 12-2 所 示 。 
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。 主 设备 通过 ICB 的 命令 通道 向 从 设备 发 送 写 操作 请 求 Cicb. cmd. read 为 低 )， 从 设备 
立即 接收 该 请 求 (icb cmd ready 为 高 )。 

。 从 设备 在 同一 个 周期 返回 反馈 且 结 果 正 确 〈icb rsp err 为 低 )， 主 设备 立即 接收 该 结 
果 (icb rsp ready 为 高 )。 

如 图 12-3 所 示 。 

e 主 设备 通过 ICB 的 命令 通道 向 从 设备 发 送 读 操作 请 求 (icb_cmd_read 为 高 )， 从 设备 
立即 接收 该 请 求 (icb cmd ready 为 高 )。 

e 从 设备 在 下 一 个 周期 返回 反馈 且 结 果 正 确 (icb_rsp_err 为 低 )， 主 设备 立即 接收 该 结 
果 (icb rsp ready 为 高 )。 


icb cmd valid / \ / icb cmd valid / | f 





T py S W. 
icb_rsp_valid / | 
icb rsp ready / | 





12-2” 写 操作 同一 周期 返回 结果 12-3 ” 读 操 作 下 一 周期 返回 结果 


如 图 12-4 所 示 。 

e 主 设备 通过 ICB 的 命令 通道 问 从 设备 发 送 写 操作 请 求 (icb cmd read 为 低 )， 从 设备 
立即 接收 该 请 求 〈icb_cmd ready 为 高 )。 

e 从 设备 在 下 一 个 周期 返回 反馈 且 结 果 正 确 (icb rsp err 为 低 )， 主 设备 立即 接收 该 结 
R (icb rsp ready 为 高 )。 

如 图 12-5 所 示 。 

e. 主 设备 同 从 设备 通过 ICB 的 命令 通道 上 用 送 读 操作 请 求 (icb cmd read 为 高 )， 从 设备 
立即 接收 该 请 求 (icb cmd ready 为 高 )。 

。 从 设备 在 4 个 周期 后 返回 反馈 且 结 果 正 确 〈icb rsp err 为 低 )， 主 设备 立即 接收 该 结 
果 (icb rsp ready 为 高 )。 

如 图 12-6 所 示 。 

。 主 设备 通过 ICB 的 命令 通道 问 从 设备 发 送 写 操作 请 求 (icb_cmd read 为 低 )， 从 设备 
立即 接收 该 请 求 〈icb cmd ready 为 高 )。 

。 从 设备 在 4 个 周期 后 返回 反馈 且 结 果 出 错 〈icb rsp err 为 高 )， 主 设备 立即 接收 该 结 
果 (icb rsp ready 为 高 )。 
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i ei wj 
icb cmd valid AEN / icb. cmd valid f A f 
icb cmd ready FA f jcb_cmd rsady 


icb. cmd read f icb_cmd_read 


icb_cmd_wdata 7772417777777 tcm 








lcb rsp err cb. rep, err 


12-4 ” 写 操 作 下 一 周期 返回 结果 12-5 读 操 作 4 个 周期 返回 结果 


如 图 12-7 所 示 。 

e 主 设备 通过 ICB 的 命令 通道 向 从 设备 连续 发 送 4 个 读 操 作 请 求 (icb cmd read 为 高 )， 
从 设备 均 立 即 接收 请 求 Cicb cmd ready 为 高 )。 

。 从 设备 在 4 个 周期 后 连续 返回 4 个 读 结果 , 其 中 前 3 个 结果 正确 (icb rsp err 为 低 )， 
第 4 个 结果 错误 Cicb rsp err 为 高 )， 主 设备 均 立 即 接收 此 4 个 结果 (icb_rsp_ready 
为 高 )。 

&FLTLELTLIETLIUTTLELIPL w LTU CEST UGEET 


icb_cmd_valid / | f icb_emd_valid / | / 
icb cmd ready m "— z icb cmd ready / TETIEENIA 
2 NG T BC ABOOr Og no aod Y^ " 7 A 





TI GcÍll Br rA ERE. 
ich cmd wdata 
ich. cmd wmask 

mI i SLE Ll mH. A 
icb rsp ready [ N thmh i oi oec] | Ul X j 
icb rsp rdata ib rep rdata 





icb rsp err p AN icb rsp err m P ALPE REA UNA! on AE 
&12-6 ” 写 操 作 4 个 周期 返回 结果 12-7 连续 4 个 读 操 作 均 4 个 周期 返回 结果 


如 图 12-8 所 示 。 

。 主 设备 通过 ICB 的 命令 通道 向 从 设备 连续 发 送 4 个 写 操作 请 求 (icb_ cmd read 为 低 )， 
从 设备 均 立 即 接收 请 求 〈icb_cmd ready 为 高 )。 

。 从 设备 在 4 个 周期 后 连续 返回 4 个 写 结果 ， 其 中 前 3 个 结果 正确 〈icb rsp em 为 低 )， 第 
4 个 结果 错误 〈icb rsp_err 为 高 )， 主 设备 均 立 即 接收 此 4 个 结果 Geb rsp ready 为 高 )。 

如 图 12-9 所 示 。 

。 主 设 备 通过 ICB 的 命令 通道 向 从 设备 相继 发 送 两 个 读 和 一 个 写 操作 请 求 。 

e 从 设备 立即 接收 了 第 1 个 和 第 3 个 请 求 。 
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。 但 是 第 2 个 请 求 的 第 1 个 周期 并 没有 被 从 设备 立即 接受 (icb_cmd_ready 为 低 )， 
此 主 设备 一 直 将 地 址 控制 和 写 数据 信号 保持 不 变 ， 直 到 下 一 周期 该 请 求 被 从 设备 接 
受 (icb cmd ready 为 高 )。 

。 从 设备 对 于 第 1 个 和 第 2 个 请 求 都 是 在 同一 个 周期 就 返回 结果 ， 且 被 主 设备 立即 接受 。 

。 但 是 从 设备 对 于 第 3 个 请 求 则 是 在 下 一 个 周期 才 返 回 结果 ， 并 且 主 设备 还 没有 立即 
接受 〈icb rsp ready 为 低 )， 因 此 从 设备 一 直 将 返回 信号 保持 不 变 ， 直 到 下 一 周期 该 








返回 结果 被 主 设备 接受 。 

“rr "nn igili 
na me Nr Ne ooo or o 
kb cmd ready — /. NV. Rf. icb cmd. ready a 3 a p= 

Gddr addr2taddr3iaddrtd LA SI 
icb rsp valid | / y aum [WX 全 | / = 3 12:95 SONDERN 
A 7 A A 7 
icb rsp err / \ icb rsp err / \ s si WE LR 
图 12-8 连续 4 个 写 操作 均 4 个 周期 返回 结果 12-9 ” 读 写 操作 混合 发 生 


12.3 1CB 总 线 的 硬件 实现 


本 节 将 描述 ICB 总 线 的 若干 典型 硬件 实现 方式 。 
12.3.1 一 主 多 从 
输入 反馈 通道 输入 命令 通道 


ICB 总 线 可 以 通过 一 个 “ICB RR Es (Response Channel) (Command Channel) 
块 实现 一 个 主 设备 到 多 个 从 设备 的 连接 。 
以 1 个 输入 3 个 输出 为 例 , 如 图 12-10 所 示 ， 
“ICB 分 发 ”模块 的 微 架构 要 点 如 下 。 
。 该 模块 有 1 个 输入 ICB, 命名 为 In 
总 线 ; 有 3 个 输出 ICB， 分 别 命 名 
为 Out0、Outl 和 Out2 总 线 。 





Outo Outl  Out2 OutO Out1  Out2 


。 该 模块 并 没有 引入 任何 的 周期 延 输出 反馈 通道 输出 命令 通道 


(Response Channels) (Command Channels) 


iR, BIA ICB 和 输出 ICB 在 1 
图 12-10 1 个 ICB 分 发 成 3 个 ICB 


AARAA SEX 
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。 该 模块 的 In 总 线 命令 通道 有 1 个 附属 输入 信号 ， 用 来 指示 该 请 求 应 该 被 分 发 到 哪个 
输出 ICB 总 线 。 该 附属 信号 可 以 在 顶层 通过 地 址 区 间 的 比较 判断 生成 所 得 。 

。 根据 附属 信号 中 的 指示 信息 ，In 总 线 的 命令 通道 被 分 发 给 Out0. Outl 或 者 Out2 输 
出 ICB 的 命令 通道 。 每 个 周期 如 果 握 手 成 功 ， 则 分 发 一 个 交易 〈Transaction)， 同 时 
将 “分 发 信息 ” 压 入 FIFO F. 

e 由 于 ICB 支持 多 个 混 外 交易 ，Out0、Outl 或 者 Out2 输出 ICB 通过 反馈 通道 返回 的 
结果 可 能 需要 多 个 周期 才能 返回 ， 并 且 各 自 返 回 的 时 间 点 可 能 先后 不 一 ， 因 此 需要 
被 仲裁 。 此 时 可 以 从 FIFO 中 按 顺 序 弹 出 之 前 被 压 入 的 “分 发 信息 ”作为 仲裁 标准 。 
该 FIFO 的 深度 决定 了 该 模块 能 够 支持 的 多 个 滞 外 交易 的 个 数 ， 同 时 由 于 FIFO 先入 
先 出 的 顺序 性 ， 能 够 保证 输入 ICB 严格 按照 发 出 的 顺序 接收 到 相应 的 返回 结果 。 

。 有 一 种 极端 情况 ， 那 就 是 当 FIFO 为 空 时 ， 意 味 着 没有 滞 外 交易 ， 并 且 当 前 分 发 的 
ICB 交易 可 以 被 从 设备 在 同一 个 周期 内 立即 返回 结果 ， 那 么 该 交易 的 分 发 信息 无 须 
被 压 入 FIFO， 而 是 将 其 旁 路 使 用 该 分 发 信息 直接 用 于 反馈 通道 选择 的 选 通 信号 。 


12.3.2 多 主 一 从 
ICB 总 线 可 以 通过 一 个 “ICB 汇合 ”模块 实现 多 个 主 设备 到 一 个 从 设备 的 连接 。 以 3 个 
RASI R NUES 12-11 Mas ICB > MARAE Pcia T 
汇合 ”模块 的 微 架构 要 点 如 下 。 ur e go ur mi 


。 该 模块 有 3 个 输入 ICB， 分 别 命名 
为 nO, Inl 和 In2 总 线 ， 有 1 个 输 dai c a akilia 
出 ICB， 命 名 为 Out 总 线 。 选择 

。 该 模块 并 没有 引入 任何 的 周期 延 bi 
迟 , 即 输入 ICB 和 输出 ICB 在 1 个 EAS pisi 
周期 内 穿 通 。 Out t 

。 该 醒 志 多 个 输入 ICB 的 命令 通道 需 。。 Ass 
REAPER, TAEA EIERN 图 12-11 3 个 ICB 汇合 成 1 个 ICB 
制 ， 也 可 以 选择 优先 级 选择 的 机 
制 。 以 优先 级 选择 机 制 为 例 ， 可 以 分 配 In0 总 线 的 优先 级 最 高 、In1 其 次 、In2 再 次 ， 
通过 优先 级 选择 之 后 作为 输出 ICB 的 命令 通道 。 每 个 周期 如 果 握 手 成 功 ， 则 仲裁 发 
送 一 个 交易 ， 同 时 将 “仲裁 信息 ” 压 入 FIFO 中 。 

e 由 于 输出 ICB 通过 反馈 通道 返回 的 结果 一 定 是 按 顺序 返回 的 (ICB 协议 规定 )， 因 此 


无 需 担心 其 顺序 性 。 但 是 返回 的 结果 需要 判别 ， 并 分 发 给 对 应 的 输入 ICB 总 线 ， 此 时 
可 以 从 FIFO 中 按 顺 序 弹 出 之 前 被 压 入 的 “仲裁 信息 ”作为 分 发 的 依据 。 因 此 该 FIFO 
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的 深度 决定 了 该 模块 能 够 支持 的 多 个 滞 外 交易 的 个 数 ， 同 时 由 于 FIFO 先入 先 出 的 顺 
序 性 ， 能 够 保证 各 个 不 同 的 输入 ICB 严格 按照 发 出 的 顺序 接收 到 相应 的 返回 结果 。 

。 有 一 种 极端 情况 ， 那 就 是 当 FIFO ATH, BRERA D. FHRA 
ICB 交易 可 以 被 从 设备 在 同一 个 周期 内 立即 返回 结果 。 那 么 该 交易 的 仲裁 信息 无 须 
WEA FIFO， 而 是 将 其 旁 路 使 用 该 仲裁 信息 ， 直 接 用 于 反馈 通道 分 发 的 选 通信 号 。 


12.3.3 2€ x2 


通过 使 用 “一 主 多 从 ”和 “多 主 一 从 ”模块 的 有 效 组 合 , 便 可 以 组 装 成 为 不 同形 式 的 “多 
主 多 从 ”模块 。 

第 一 种 简单 的 “多 主 多 从 ”模块 如 图 12-12 所 示 。 通 过 将 “多 主 一 从 ”和 “一 主 多 从 ” 
模块 ,直接 对 接 ， 便 可 达到 多 主 多 从 的 效果 。 但 是 其 缺陷 是 所 有 的 主 ICB 总 线 均 需 要 通过 中 
间 一 条 公用 的 ICB 总 线 ， 香 吐 率 受 限 。 

第 二 种 稍微 复杂 的 “多 主 多 从 ”模块 如 图 12-13 所 示 。 通 过 使 用 多 个 “一 主 多 从 ”和 “多 
主 一 从 ”模块 交织 组 装 成 为 “多 主 多 从 ”的 交叉 开关 CCrossba 结构 。 该 结构 使 得 每 个 主 接 
口 和 从 接口 之 间 均 有 专用 的 通道 ， 但 是 其 缺陷 是 面积 开销 很 大 ， 并 且 设 计 不 当 容 易 造成 死 锁 。 





| Master | Masteri | | Master? | 
a wt tns a 
| O — [oem X* | 
| Sbvel | | Sve2 | 
12-12. 简单 的 多 主 多 从 结构 图 12-13 ”交叉 开关 的 多 主 多 从 结构 


12.4 Ryn EA 


本 节 将 介绍 蜂鸟 E200 处 理 器 核 BIU 模块 的 微 架 构 及 其 源码 分 析 。 


12.4.1 BIU 简介 
BIU 在 蜂鸟 E200 处 理 器 核 中 的 位 置 如 图 12-14 所 示 。 
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快速 IO 接口 ICcB — 私有 外 设 接 口 ICB 系统 存储 接口 CB ”CLINT 接 口 ICB8 PLiC 接 口 ICB 





图 12-14 BIU 在 蜂鸟 E200 处 理 器 核 中 的 位 置 


BIU 主要 负责 接受 来 自 IFU (Instruction Fetch Unit) 和 LSU (Load Store Unit) 单元 的 
存储 器 访问 请 求 , 并 且 使 用 标准 的 ICB 接口 。 然 后 通过 判断 其 访问 的 地 址 区 间 来 访问 外 部 的 
不 同 接口 ， 包 括 以 下 5 种 。 

。 快速 IO 接口 。 

。 私有 外 设 接口 。 

。 系统 存储 接口 。 

e CLINT 接口 ， 参 见 第 13.5.5 节 了 解 CLINT 的 相关 信息 。 

e PLIC 接口 ， 参 见 第 13.5.6 节 了 解 PLIC 的 相关 信息 。 

有 关 这 些 接口 和 组 件 的 信息 和 作用 ， 请 参见 第 4.2 节 了 解 蜂鸟 E200 处 理 器 核 的 接口 信 
息 ， 和 第 182 节 了 解 SoC 结构 的 更 多 信息 。 


12.4.2 BIU 微 架 构 


BIU 的 微 架构 如 图 12-15 所 示 ， 其 要 点 如 下 。 

。 BIU 有 两 组 输入 ICB 总 线 接口 ， 分 别 来 自 于 IFU M LSU 单元 。 请 参见 第 7.3 节 了 解 
IFU 的 更 多 信息 ， 请 参见 第 11.4 节 了 解 LSU 的 更 多 信息 。 

。 两 组 输入 ICB 总 线 经 过 一 个 “ICB 汇合 ”模块 ， 将 其 汇合 成 为 一 组 ICB 总 线 ， 采 用 
的 仲裁 机 制 是 优先 级 仲裁 ，LSU 总 线 具 有 更 高 的 优先 级 。 

。 为 了 砍 断 外 界 与 处 理 器 核 内 部 之 间 的 时 序 路 径 ， 在 汇合 的 ICB 总 线 处 插入 一 组 乒乓 
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缓存 (Ping-Pong Buffer)。 使 用 乒乓 缓存 (Ping-Pong Buffer) 砍 断 时 序 路 径 是 高 速 处 
理 器 设计 常用 的 技术 手段 之 一 。 请 参见 第 6.3 节 中 了 解 有 关 “ 处 理 嚣 流水线 的 反 压 ” 
的 更 多 信息 。 

经 过 Ping-Pong Buffer 之 后 的 ICB 总 线 通 过 其 命令 通道 的 地 址 进行 判断 ， 通 过 判断 
其 访问 的 地 址 区 间 产 生 分 发 信息 ， 然 后 使 用 一 个 “ICB 分 发 ”模块 将 其 分 发 给 不 同 
的 外 部 接口 。 

BIU 中 使 用 到 的 “ICB 汇合 ”和 “ICB 分 发 ”模块 的 FIFO 深度 默认 配置 均 为 1， 意 
味 着 蜂鸟 E200 处 理 器 默认 只 支持 一 个 滞 外 交易 COne Outstanding Transaction), J 
配置 的 原因 在 于 减少 面积 开销 。 

为 了 防止 FU 访问 到 设备 地 址 区 间 产 生 不 可 预知 的 结果 ， 因 此 如 果 IFU 访问 了 设备 
区 间 ， 则 直接 通过 其 反馈 通道 返回 错误 标志 结果 。 












快速 IO 接口 ICB 
LSU 访 问 BIU 接 口 ICB Ld 私有 外 设 接口 ICB 
(Zaan 

IFU 访 问 BiU 接 口 ICB 
A CLINT 接 口 ICB 





ZN ENI 
Ping-Pong 


Buffer PLIC O ICB 


图 12-15 BIU 微 架构 图 


12.4.3 BIU 源码 分 析 
BIU 的 相关 源 代 码 在 e200 opensource H 录 的 结构 如 下 。 


e200 opensource 


|----rtl // 存放 RTL 的 目录 
| ----e203 // E203 EHfll Soc 的 RTL 目录 
| ----general // 存放 一 些 公用 的 通用 RTL 代码 
|----core // 存放 e203 Core 的 RTL 代码 


|----e203 biu.v  // BIU: 的 源 代码 


由 于 BIU 的 源 代码 比较 简单 ， 请 读者 到 GitHub 的 e200 opensource 项 目 中 自行 阅读 。 


12.5 EARNER: 


由 于 蜂鸟 E200 BIU 模块 直接 对 接 外 部 SoC 的 总 线 ， 因 此 本 节 将 顺便 介绍 蜂鸟 E200 处 
理 器 的 SoC 总 线 ， 包 插 其 微 架 构 和 源码 分 析 。 
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12.5.4 SoC 总 线 简介 


在 蜂鸟 E200 处 理 器 配套 的 SoC 中 ， 总 线 结构 如 图 12-16 所 示 。 
。 BIU 的 系统 存储 接口 ICB 连接 SoC 中 的 系统 存储 总 线 , 通过 其 访问 SoC 中 的 若干 存 
储 组 件 ， 璧 如 ROM. OTP, Flash 的 只 读 区 间 等 。 
。 BIU 的 私有 外 设 接口 ICB 连接 SoC 中 的 私有 设备 总 线 , 通过 其 访问 SoC 中 的 若干 设 
备 ， 譬 如 UART、GPIO 等 。 
有 关 蜂 乌 E200 处 理 器 配套 SoC 的 结构 和 组 件 以 及 地 址 分 配 ， 请 参见 第 18.2 节 了 解 更 多 
SoC 详细 信息 。 


其 他 系统 设备 
tt LH 





- - 
FC dea. 1 


12-16 ”蜂鸟 E200 处 理 器 SoC 总 线 示意 图 


12.5.2 ”SoC 总 线 微 架构 


SoC 总 线 的 微 架 构 如 图 12-17 所 示 。 其 要 点 如 下 。 

e 私有 外 设 接口 ICB 总 线 通 过 其 命令 通道 的 地 址 进行 判断 ， 通 过 其 访问 的 地 址 区 间 产 
生 分 发 信息 ， 然 后 使 用 一 个 “ICB 分 发 ”模块 将 其 分 发 给 不 同 的 外 设 ICB 接口 。 

。 系统 存储 接口 ICB 总 线 通过 其 命令 通道 的 地 址 进行 判断 ， 通 过 其 访问 的 地 址 区 间 产 
生 分 发 信息 ， 然 后 使 用 一 个 “ICB 分 发 ”模块 将 其 分 发 给 不 同 的 存储 模块 ICB 接口 。 

。 与 BIU 微 架 构 同 理 ， 如 果 任 何 ICB 路 径 中 存在 着 时 序 的 关键 路 径 ， 可 以 插入 一 组 乒 
乓 缓存 砍 断 前 后 的 时 序 路 径 。 同 理 ， 如 果 任 何 ICB 路 径 需 要 跨越 异步 时 钟 域 或 者 整 
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数 倍 分 频 时 钟 域 ， 也 可 以 插入 相应 的 异步 FIFO 或 者 流水 线 级 数 。 





GPIO 接 口 ICB 

UART 接 口 ICB 

快速 IO 接口 ICB Saris 

LSU 访 问 BIU 接 口 IC8 私有 外 设 接口 ICB AR 
系统 存储 接口 ICB 

IFU 访 问 BIU 接 口 ICB Bl U 

CUHNT 接 口 ICB 

PLIC 接 口 ICB 其 他 系统 存储 接口 ICB 

Debug 模 块 接口 ICB 

ROM 接 口 IC8 

Flash 读 接口 ICB 





图 12-17 SoC 总 线 微 架构 图 


12.5.3 SoC 总 线 源 码 分 析 


请 参见 第 18.2.2 $ TRAR SoC 总 线 的 相关 源 代 码 结构 , 本 节 在 此 不 做 鳌 述 。 关 于 SoC 
总 线 的 详细 源 代 码 ， 请 读者 于 GitHub 的 e200 opensource 项 目 中 自行 阅读 。 


12.6 E: 


HEX ICB 总 线 是 蜂 乌 E200 处 理 器 核 和 配套 SoC 的 一 个 特点 , 通过 统一 而 简单 的 ICB 
总 线 ， MES, E200 处 理 器 核 和 配套 SoC 能 够 在 最 大 程度 上 实现 灵活 性 和 自主 性 。 由 于 ICB 总 
线 极 其 简单 ， 能 够 非常 容易 地 被 转换 成 为 其 他 的 任何 一 种 流行 总 线 ， 璧 如 AHB, AXI. 
Wishbone 总 线 等 ， 使 得 蜂鸟 E200 处 理 器 核能 够 取得 尽量 多 的 普 适 性 。 此 外 ，ICB 总 线 非 常 
便于 插入 流水 线 级 数 ， 因 此 蜂鸟 E200 处 理 器 核 和 SoC 总 线 均 能 够 运行 到 相当 高 的 主 频 。 
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中 断 和 异常 虽说 本 身 不 是 一 种 指令 , 但 却 是 处 理 器 指令 集 架构 中 非常 重要 的 一 环 , 任何 
一 种 指令 集 架 构 都 会 安排 专门 的 章节 定义 和 详解 其 中 断 和 异常 的 行为 , 可 以 说 中 断 和 异常 是 
不 得 不 说 的 故事 。 

本 章 将 介绍 RISC-V 架构 定义 的 中 断 和 异常 机 制 ， 以 及 蜂鸟 E200 处 理 器 核 中 断 和 异常 
的 硬件 微 架 构 和 源码 分 析 。 


13.1 EiiubEi 
13.1.4 ”中断 概述 


中 断 〈JInterrupt) 机 制 ， 即 处 理 器 核 在 顺序 执行 程序 指令 流 的 过 程 中 突然 被 别 的 请 求 打 
断 而 中 止 执行 当前 的 程序 ， 转 而 去 处 理 别 的 事情 ， 待 其 处 理 完了 别 的 事情 ， 然 后 重新 回 到 之 
前 程序 中 断 的 点 继续 执行 之 前 的 程序 指令 流 ， 其 要 点 如 下 。 

e 打 断 处 理 器 执行 程序 指令 流 的 “ 别 的 请 求 ” 便 称 之 为 中 断 请 求 (Interrupt Request), ^57] 

的 请 求 ” 的 来 源 便 称 之 为 中 断 源 CInterrupt Source)。 中 断 源 通 常 来 自 于 外 围 硬件 设备 。 
。 处 理 器 转 而 去 处 理 的 “ 别 的 事情 ” 便 称 之 为 中 断 服务 程序 (Interrupt Service Routine. 
ISR 

。 中 断 处 理 是 一 种 正常 的 机 制 ， 而 非 一 种 错误 情形 。 处 理 器 收 到 中 断 请 求 之 后 ， 需 要 
保存 当前 程序 的 现场 ， 简 称 为 保存 现场 。 等 到 处 理 完 中 断 服务 程序 后 ， 处 理 器 需要 
恢复 之 前 的 现场 ， 从 而 继续 执行 之 前 被 打 断 的 程序 ， 简 称 为 “恢复 现场 ”。 
。 可 能 存在 多 个 中 断 源 同 时 问 处 理 器 发 起 请 求 的 情形 ， 因 此 需要 对 这 些 中 断 源 进行 促 
裁 ， 从 而 选择 哪个 中 断 源 被 优先 处 理 。 此 种 情况 称 为 “中 断 仲裁 ?， 同 时 可 以 给 不 同 
的 中 断 分 配 优先 级 以 便于 仲裁 ， 因 此 中 断 存在 着 “中 断 优 先 级 ”的 概念 。 

。 还 有 一 种 可 能 是 处 理 器 已 经 在 处 理 某 个 中 断 过 程 中 (执行 该 中 断 的 ISR 之 中 )， 此 时 
有 一 个 优先 级 更 高 的 新 中 断 请 求 到 来 , 此 时 处 理 器 该 如 何 是 好 呢 ? 有 如 下 两 种 可 能 。 

第 一 种 可 能 是 处 理 器 并 不 啊 应 新 的 中 断 ， 而 是 继续 执行 当前 正在 处 理 的 中 断 服 务 程序 ， 
竺 到 彻底 完成 之 后 才 啊 应 新 的 中 断 请 求 ， 这 种 称 为 处 理 器 “不 支持 中 断 内 套 ”。 

第 二 种 可 能 是 处 理 器 中 止 当前 的 中 断 服务 程序 ， 转 而 开始 啊 应 新 的 中 断 ， 并 执行 其 “中 
断 服 务 程 序 ”， 如 此 便 形 成 了 中 断 通 套 〈 即 前 一 个 中 断 还 没 响应 完 ， 又 开始 响应 新 的 中 断 )， 
并 且 骨 套 的 层次 可 以 有 很 多 层 。 

注意 : 假设 新 来 的 中 断 请 求 的 优先 级 比 正在 处 理 的 中 断 优先 级 低 〈( 或 者 相同 )， 则 不 管 
处 理 器 是 否 能 支持 “中 断 藤 套 ” 都 不 应 该 响应 这 个 新 的 中 断 请 求 ， 处 理 器 必须 完成 当前 的 
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中 断 服务 程序 之 后 才 考 虚 响 应 新 的 中 断 请 求 (因为 新 中 断 请 求 的 优先 级 并 不 比 当前 正在 处 理 
的 中 断 优先 级 高 )。 


13.1.2. EE 


异常 (Exception) 机 制 ， 即 处 理 器 核 在 顺序 执行 程序 指令 流 的 过 程 中 突然 过 到 了 措 和 常 的 
事情 而 中 止 执行 当前 的 程序 ， 转 而 去 处 理 该 异常 ， 其 要 点 如 下 。 

。 处 理 器 遇 到 的 “异常 的 事情 ” 称 为 异常 ‘Exception)。 异 常 与 中 断 的 最 大 区 别 在 于 中 断 
往往 是 一 种 外 因 , 而 异常 是 由 处 理 器 内 部 事件 或 程序 执行 中 的 事件 引起 的 ， SERT EFIE 
件 故障 、 程 序 故障 ， 或 者 执行 特殊 的 系统 服务 指令 而 引起 的 ， 简 而 言 之 是 一 种 内 因 。 

e 与 中 断 服务 程序 类 似 ， 处 理 器 也 会 进入 异常 服务 处 理 程序 。 

。 与 中 断 类 似 ， 可 能 存在 多 个 异常 同时 发 生 的 情形 ， 因 此 异常 也 有 优先 级 ， 并 且 也 可 
能 发 生 多 重 异 常 的 峙 套 。 


13.1.3. EXCISE 


如 上 一 节 所 述 ， 中 断 和 异常 最 大 的 区 别 是 起 因 内 外 有 别 。 除 此 之 外 ， 从 本 质 上 来 讲 ， 中 
断 和 异常 对 于 处 理 器 而 言 基本 上 是 一 个 概念 。 中 断 和 异常 发 生 时 ， 处理 器 将 暂停 当前 正在 执 
行 的 程序 ， 转 而 执行 中 断 和 有 异常 处 理 程序 ; 返回 时 ， 处 理 器 恢复 执行 之 前 被 暂停 的 程序 。 

因此 中 断 和 异常 的 划分 是 一 种 狭义 的 划分 。 从 广义 上 来 讲 ， 中 断 和 异常 都 被 认为 是 一 种 
广义 上 的 异常 。 处 理 器 广义 上 的 异常 ， 通 常 只 分 为 同步 异常 (Synchronous Exception) Jt 
^t (Asynchronous Exception). 

1. 同步 异常 

同步 异常 是 指 由 于 执行 程序 指令 流 或 者 试图 执行 程序 指令 流 而 造成 的 异常 。 这 种 异常 的 
原因 能 够 被 精确 定位 于 某 一 条 执行 的 指令 。 同 步 异 常 的 男 外 一 个 通俗 的 表象 便 是 , 无论 程序 
在 同样 的 环境 下 执行 多 少 裔 ， 每 一 次 都 能 精确 地 重 现 出 来 。 

辟 如 ,程序 流 中 有 一 条 非法 的 指令 ,那么 处 理 器 执行 到 该 非法 指令 便 会 产生 非法 指令 异 
常 (Illegal Instruction Exception), 能 被 精确 地 定位 于 这 一 条 非法 指令 , 并 且 能 够 被 反复 重 现 。 

2. 异步 异常 

异步 异常 是 指 那 些 产 生 原 因 不 能 够 被 精确 定位 于 某 条 指令 的 异常 。 异 步 异常 的 男 外 一 个 通 
俗 的 表象 便 是 ， 程 序 在 同样 的 环境 下 执行 很 多 遍 ， 每 一 次 发 生 异 常 的 指令 PC 都 可 能 会 不 一 样 。 

最 常见 的 异步 异常 是 “外 部 中 断 ” 如 第 13.1.1 节 所 述 ， 外 部 中 断 的 发 生 是 由 外 围 设备 
驱动 的 ， 一 方面 外 部 中 断 的 发 生 带 有 偶然 性 ， 另 一 方面 中 断 请 求 抵达 于 处 理 器 核 之 时 ， 处 理 
器 的 程序 指令 流 执 行 到 具体 的 哪 一 条 指令 更 带 有 偶然 性 。 因此 一 次 中 断 的 到 来 可 能 会 巧遇 到 
某 一 条 “正在 执行 的 不 幸 指 令 ”， 而 该 指令 便 成 了 “ 背 锅 侠 ”。 在 它 的 指令 PC 所 在 之 处 ， 程 
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序 便 停 止 执行 ， 并 转 而 响应 中 断 去 执行 中 断 服 务 程序 。 但 是 当 程 序 重复 执行 时 ， 却 很 难 会 出 
现 同 一 条 指令 反复 “ 背 锅 ” 的 精确 情形 。 
对 于 异步 异常 ， 根 据 其 啊 应 异常 后 的 处 理 器 状态 ， 又 可 以 分 为 两 种 。 
CD NH PRA (Precise Asynchronous Exception): 指 响 应 异常 后 的 处 理 器 状态 能 够 
精确 反映 为 某 一 条 指令 的 边界 ， 即 某 一 条 指令 执行 完 之 后 的 处 理 器 状态 。 
(2) 非 精确 异步 异常 (Imprecise Asynchronous Exception): 指 响应 异常 后 的 处 理 器 状态 
无 法 精确 反映 为 某 一 条 指令 的 边界 ， 即 可 能 是 某 一 条 指令 执行 了 一 半 然 后 被 打 断 的 结果 , 或 
者 是 其 他 模糊 的 状态 。 
第 见 的 典型 同步 异常 和 异步 异常 如 表 13-1 所 示 ， 此 表 可 以 帮助 读者 更 加 理解 同步 异常 
和 异步 异常 的 区 别 。 


表 13-1 


同步 异常 


精确 异步 
异常 


同步 异常 和 异步 异常 
典型 异常 

。 取 指 令 访问 到 非法 的 地 址 区 间 
譬如 外 设 模 块 的 地 址 区 间 往 往 是 不 可 能 存放 指令 代码 的 , 因此 其 属性 是 “不 可 执行 ”% 并 且 还 是 读 敏感 的 (Read 
Sensitive)。 如 果 某 条 指令 的 PC 位 于 外 设 区 间 ， 则 会 造成 取 指 令 错 误 。 这 种 错误 能 够 精确 的 定位 到 是 哪 一 条 指 
令 PC 造成 的 
e 读 写 数据 访问 地 址 属性 出 错 
譬如 有 的 地 址 区 间 的 属性 是 只 读 或 者 只 写 的 ， 假 设 Load 或 者 Store 指令 以 错误 的 方式 访问 了 地 址 区 间 〔〈 和 譬如 
写 了 只 读 的 区 间 )， 这 种 错误 方式 能 够 被 存储 器 保护 单元 (Memory Protection Unit, MPU) 或 者 存储 器 管理 单 
Jù (Memory Management Unit, MMU) 及时 探测 出 来 ， 则 能 够 精确 地 定位 到 是 哪 一 条 Load 或 Store 指令 访 存 
造成 的 
MPU 和 MMU 是 分 别 对 地 址 进行 保护 和 管理 的 硬件 单元 ， 本 书 限 于 篇 幅 在 此 对 其 不 做 獒 述 ， 感 兴趣 的 读者 请 
自行 查阅 其 他 资料 
。 取 指令 地 址 非 对 齐 错误 
处 理 器 指令 集 架 构 往 往 规 定 指令 存放 在 存储 器 中 的 地 址 必须 是 对 齐 的 ， 璧 如 16 位 长 的 指令 往往 要 求 其 PC (E 
必须 是 16 位 对 齐 的 。 假 设 该 指令 的 PC 值 不 对 齐 ， 则 会 造成 取 指令 不 对 齐 错误 。 这 种 错误 能 够 精确 的 定位 到 
是 哪 一 条 指令 PC 造成 的 
。 非法 指令 错误 
处 理 器 如 果 对 指令 进行 译 码 发 现 这 是 一 条 非法 的 指令 〈 璧 如 不 存在 的 指令 编码 )， 则 会 造成 非法 指令 错误 。 这 
种 错误 能 够 精确 的 定位 到 是 哪 一 条 指令 造成 的 
。 执行 调试 断 点 指令 
处 理 器 指令 集 架 构 往 往 会 定义 若干 条 调试 指令 ， 辟 如 断 点 (EBREAK) 指令 。 当 执行 到 该 指令 时 处 理 器 便 会 
发 生 异 常 进入 异常 服务 程序 。 该 指令 往往 用 于 调试 器 (Debugger) 使 用 ， 蔷 如 设置 断 点 。 这 种 异常 能 够 被 精确 
地 定位 于 具体 是 哪 一 条 EBREAK 指令 造成 的 
。 外 部 中 断 
外 部 中 断 是 最 常见 的 精确 异步 异常 ， 第 13.1.1 节 已 对 其 专门 论述 ， 此 处 不 再 装 述 
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续 表 

典型 异常 
e 读 写 存储 器 出 错 
读 写 存储 器 出 错 是 另外 一 种 最 常见 的 非 精 确 异步 异常 ， 由 于 访问 存储 器 (简称 访 存 ) 需要 一 定 的 时 间 ， 处 理 
器 往往 不 可 能 坐等 该 访问 结束 (否则 性 能 会 很 差 )， 而 是 会 继续 执行 后 续 的 指令 。 等 到 访 存 结果 从 目标 存储 器 
返回 来 之 后 ， 发 现 出 现 了 访 存 错误 并 汇报 异常 ， 但 是 处 理 器 此 时 可 能 已 经 执行 到 了 后 续 的 某 条 指令 ， 难 以 精 
确定 位 。 并 且 存 储 器 返回 的 时 间 延 迟 也 具有 偶然 性 ， 无 法 被 精确 地 重 现 
这 种 异步 异常 的 另外 一 个 常见 示例 便 是 写 操作 将 数据 写 入 缓存 行 (Cache Line) 中 ， 然 后 该 缓存 行经 过 很 久 才 
被 营 换 出 来 ， 写 回 外 部 存储 器 ， 但 是 写 回 外 部 存储 器 返回 结果 出 错 。 此 时 处 理 器 可 能 已 经 执行 过 了 后 续 成 百 
上 千 条 指令 ， 到 底 是 哪 一 条 指令 当时 写 的 这 个 地 址 的 缓存 行 早已 是 “前 朝 旧 事 "， 不 可 能 被 精确 定位 ， 更 不 要 
说 复 现 了 。 有 关 缓 存 的 细节 ， 本 书 限 于 篇 幅 在 此 对 其 不 做 装 述 ， 感 兴趣 的 读者 请 自行 查阅 其 他 资料 


非 精确 异步 
TU 


13.2 BLIETSRBUESSETTISTIEI 


本 市 将 介绍 RISC-V 架构 的 异常 处 理 机制 。 如 附录 Al 中 所 述 ， 当 前 RISC-V 架构 文档 
主要 分 为 “指令 集 文档 ”和 “特权 架构 文档 ”。RISC-V 架构 的 异常 处 理 机 制定 义 在 “特权 架 
H” He WAR 2.1.1 节 了 解 RISC-V 架构 文档 的 下 载 地 址 。 

如 第 13.1.3 节 中 所 述 ， 狭 义 的 中 断 和 异常 均 可 以 被 归于 广义 的 异常 范畴 ， 因 此 本 书 自 此 
将 用 “异常 ”作为 统一 概念 进行 论述 ， 其 包含 了 狭义 上 的 “中 断 ” 和 “异常 ”。 

RISC-V 的 架构 不 仅 可 以 有 机 器 模式 (Machine Mode) 的 工作 模式 ， 还 可 以 有 用 户 模 式 
(User Mode)、 监 督 模式 (Supervisor Mode) 等 工作 模式 。 在 不 同 的 模式 下 均 可 以 产生 异常 ， 
并 且 有 的 模式 也 可 以 响应 中 断 。 请 参见 附录 AS 了 解 更 多 工作 模式 的 信息 。 

RISC-V 架构 要 求 机 器 模式 是 必须 具备 的 模式 ， 其 他 的 模式 均 是 可 选 而 非 必 选 的 模式 。 
因此 为 了 简化 模型 便于 读者 理解 ， 且 由 于 蜂鸟 E200 只 实现 了 机 器 模式 ， 本 章 仅 介绍 基于 机 
器 模式 的 异常 处 理 机 制 。 


13.2.1 进入 异常 


进入 异常 时 ，RISC-V 架构 规定 的 硬件 行为 可 以 简 述 如 下 。 

(1) 停止 执行 当前 程序 流 ， 转 而 从 CSR 寄存 器 mtvec 定义 的 PC 地 址 开始 执行 。 

(2) 进入 异常 不 仅 会 让 处 理 器 跳 转 到 上 述 的 PC 地 址 开始 执行 ， 还 会 让 硬件 同时 更 新 其 
他 几 个 CSR 寄存 器 ， 分 别 是 以 下 4 个 寄存 器 。 

。 机 器 模式 异常 原因 寄存 器 mcause (Machine Cause Register) 

。 机 器 模式 异常 PC 寄存 器 mepe (Machine Exception Program Counter ) 
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e 机 器 模式 异常 值 寄存 器 mtval (Machine Trap Value Register ) 

e 机 器 模式 状态 寄存 器 mstatus (Machine Status Register) 

下 文 将 分 别 予 以 详 述 。 

1. 从 mtvec 定义 的 PC 地 址 开始 执行 

RISC-V 架构 规定 ， 在 处 理 器 的 程序 执行 过 程 中 ， 一 旦 遇 到 异常 发 生 ， 则 终止 当前 的 程 
序 流 ， 处 理 器 被 强行 跳 转 到 一 个 新 的 PC 地 址 。 该 过 程 在 RISC-V 的 架构 中 定义 为 “陷阱 
(trap)” 字面 含义 为 “ 跳 入 陷阱 ”更 加 准确 的 意译 为 “进入 异常 ” 

RISC-V 处 理 器 trap 后 跳 入 的 PC 地 址 由 一 个 叫做 机 器 模式 异常 入 口 基 地 址 寄存 器 mtvec 
(Machine Trap-Vector Base-Address Register) 的 CSR 寄存 器 指定 ， 其 要 点 如 下 。 

(1) mtvec 寄存 器 是 一 个 可 读 可 写 的 CSR 寄存 器 ， 因 此 软件 可 以 编程 更 改 其 中 的 值 。 

(2) mtvec 寄存 器 的 详细 格式 如 图 13-1 所 示 ， 其 中 的 最 低 2 位 是 MODE 域 , 高 30 位 是 
BASE 域 。 


XLEN-1 21 0 
) 


BASEI[XLEN-1:2] (WARL) MODE (WARL 
XLEN-2 2 





图 13-1 mtvec 寄存 器 的 格式 


e 假设 MODE 的 值 为 0， 则 所 有 的 异常 啊 应 时 处 理 器 均 跳 转 到 BASE 值 指示 的 PC 地 址 。 
e 假设 MODE 的 值 为 1， 则 狭义 的 异常 发 生 时 ， 处 理 器 跳 转 到 BASE 值 指示 的 PC 地 
址 ; 狭义 的 中 断 发 生 时 ， 处 理 器 跳 转 到 BASE+4*CAUSE 值 指示 的 PC 地 址 。CAUSE 
的 值 表示 中 断 对 应 的 异常 编号 (Exception Code)， 如 图 13-3 所 示 。 辟 如 机 器 计时 器 
"HH (Machine Timer Interrupt〉 的 异常 编号 为 7， 则 其 跳 转 的 地 址 为 BASE-4X 
7=BASE+28= BASE+Oxl1c。 
2. 更 新 CSR Si fz gi mcause 
RISC-V 架构 规定 ， 在 进入 异常 时 ， 机 器 模式 异常 原因 寄存 器 mcause (Machine Cause 
Register) 被 同时 更 新 ， 以 反映 当前 的 异常 种 类 ， 软 件 可 以 通过 读 此 寄存 器 查询 造成 异常 的 
具体 原因 。 
mcause 寄存 器 的 详细 格式 如 图 13-2 所 示 , 其 中 最 高 1 位 为 Interrupt 域 , 低 31 位 为 异常 
编号 域 。 此 两 个 域 的 组 合 表 示 值 如 图 13-3 所 示 ， 用 于 指示 RISC-V 架构 定义 的 12 种 中 断 类 
型 和 16 种 异常 类 型 。 


XLEN-1 XLEN-2 0 


Exception Code (WLRL) 
l XLEN-1 


13-2 mcause 寄存 器 的 格式 
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3. 更 新 CSR 寡 存 器 mepc 

RISC-V 架构 定义 异常 的 返回 地 址 由 机 器 模式 1 
异常 PC Aar mepe (Machine Exception Program : mp Perupi 
Counter ) 保存 。 在 进入 异常 时 ， 硬件 将 自动 更 新 5 | Supervisor timer interrupt 


[e [Á 


mepe 寄存 器 的 值 为 当前 遇 到 异常 的 指令 PC fi CHI | 
当前 程序 的 停止 执行 点 )。 该 寄存 器 将 作为 异常 的 MEE sd 
返回 地 址 ， 在 异常 结束 之 后 ， 能 够 使 用 它 保 存 的 HE 


[— 31[ — — Reemi —— — — — 
PC 值 回 到 之 前 被 停止 执行 的 程序 点 。 


pes om — Tm 
CD 值得 注意 的 是 , 虽然 mepe 寄存 器 会 在 异 
党 发 生 时 自动 被 硬件 更 新 ,但 是 mepe 寄存 器 本 身 
也 是 一 个 可 读 可 写 的 寄存 器 ， 因 此 软件 也 可 以 直 
接 写 该 寄存 器 以 修改 其 值 。 
(2) 对 于 狭义 的 中 断 和 狭义 的 异常 而 言 ， 
RISC-V 架构 定义 其 返回 地 址 (更 新 的 mepe 值 ) 
有 些 细微 差别 。 i EE 
。 出 现 中 断 时 ， 中 断 返 回 地 址 mepe 的 值 被 图 13-3 mcause 寄存 器 中 的 Exception Code 
更 新 为 下 一 条 尚未 执行 的 指令 。 
e 出 现 异常 时 ， 中 断 返 回 地 址 mepe 的 值 被 更 新 为 当前 发 生 异 常 的 指令 PC。 注意 : 如 
果 异 常 由 ecall 或 ebreak 产生 ， 由 于 mepe 的 值 被 更 新 为 ecall 或 ebreak 指令 上 自己 的 
PC。 因 此 在 异常 返回 时 ， 如 果 直 接 使 用 mepe 保存 的 PC 值 作为 返回 地 址 ， 则 会 再 次 
跳 回 ecall 或 者 ebreak 指令 ， 从 而 造成 死 循 环 〈( 执 行 ecall 或 者 ebreak 指令 导致 重新 
进入 异常 )。 正 确 的 做 法 是 在 异常 处 理 程序 中 软件 改变 mepe 指 癌 下 一 条 指令 ， 由 于 
现在 ecall'ebreak (EX c.ebreak) 是 4 (或 2) 字 节 指令 ， 因 此 改写 设 定 mepc=mepc+4 
(或 +2) 即 可 。 
4. 更 新 CSR 寄存 器 mtval 
RISC-V 架构 规定 ， 在 进入 异常 时 ， 硬 件 将 自动 更 新 机 器 模式 异常 值 寄存 器 mtval 
(Machine Trap Value Register )， 以 反映 引起 当前 异常 的 存储 器 访问 地 址 或 者 指令 编码 。 
。 如 果 是 由 存储 器 访问 造成 的 异常 ， 壁 如 遭遇 硬件 断 点 、 取 指令 、 和 存储器 读 写 造成 的 
异常 ， 则 将 存储 器 访问 的 地 址 更 新 到 mtval 寄存 器 中 。 
。 如 果 是 由 非法 指令 造成 的 异常 ， 则 将 该 指令 的 指令 编码 更 新 到 mtval 寄存 器 中 。 
注意 : mtval 寄存 器 又 名 mbadaddr 寄存 器 ， 在 某 些 早期 版 本 的 RISC-V 编译 器 中 仅 识 别 
mbadaddr 名 称 。 
5. 更 新 CSR 寄存 器 mstatus 
RISC-V 架构 规定 ,在 进入 异常 时 ,硬件 将 自动 更 新 机 器 模式 状态 寄存 器 mstatus(Machine 
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4 | Load address misaligned 
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Status Register) 的 某 些 域 。 
(1) mstatus 寄存 器 的 详细 格式 如 图 13-4 所 示 ， 其 中 的 MIE 域 表 示 在 Machine Mode 下 
中 断 全 局 使 能 。 


31 30 29 22 21 20 19 18 17 
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图 13-4 mstatus 寄存 器 的 格式 


e 当 该 MIE 域 的 值 为 1 时 ， 表 示 Machine Mode 下 所 有 中 断 的 全 局 打开 。 

e 当 该 MIE 域 的 值 为 0 时， 表示 Machine Mode 下 所 有 中 断 的 全 局 关闭 。 

(2) RISC-V 架构 规定 ， 异 常 肥 生 时 有 如 下 情况 。 

。 MPIE 域 的 值 被 更 新 为 异常 发 生前 MIE 域 的 值 。MPIE 域 的 作用 是 在 异常 结束 之 后 ， 
能 够 使 用 MPIE 的 值 恢复 出 异常 发 生 之 前 的 MIE 值 。 

。 MIE 的 值 则 被 更 新 成 为 0( 意 味 着 进入 异常 服务 程序 后 中 断 被 全 局 关闭 ， 所 有 的 中 
断 都 将 被 屏蔽 不 啊 应 )。 

。 MPP 的 值 被 更 新 为 异常 发 生前 的 模式 。MPP 域 的 作用 是 在 异常 结束 之 后 ， 能 够 使 用 
MPP 的 值 恢 复出 异常 发 生 之 前 的 工作 模式 。 对 于 只 支持 机 器 模式 (Machine Mode 
Only) 的 处 理 器 核 〈 璧 如 蜂鸟 E200)， 则 MPP 的 值 永远 为 二 进 制 值 11。 

注意 : 由 于 本 书 为 简化 知识 模型 ， 在 此 仅 介 绍 “ 只 支持 机 器 模式 ”的 架构 ， 因 此 对 SIE, 

UIE, SPP, SPIE 等 不 做 痪 述 。 对 其 感 兴趣 的 读者 请 参见 RISC-V“ 特 权 染 构 文 档 ” 原 文 。 


13.2.2 ”退出 异常 


当 程 序 完成 异常 处 理 之 后 ， 最 终 需 要 从 异常 服务 程序 中 退出 ， 并 返回 主 程序 。RISC-V 
架构 定义 了 一 组 专门 的 退出 异常 指令 (Trap-Return Instructions)， 包 括 MRET、SRET、 和 
URET. 其 中 MRET 指令 是 必 备 的 ， 而 SRET 和 URET 指令 仅 在 支持 监督 模式 和 用 户 模 式 的 
处 理 器 中 使 用 。 

XE. 由 于 本 书 为 简化 知识 模型 ， 在 此 仅 介 绍 “ 只 支持 机 器 模式 ”的 架构 ， 对 SRET 和 
URET 指令 不 做 装 述 。 对 其 感 兴趣 的 读者 请 参见 RISC-V“ 特 权 架 构 文档 ”原文 。 

在 机 器 模式 下 退出 异常 时 ， 软 件 必须 使 用 MRET 指令 。RISC-V 架构 规定 ， 处 理 器 执行 
MRET 指令 后 的 硬件 行为 如 下 。 

e。 停止 执行 当前 程序 流 ， 转 而 从 CSR 寄存 器 mepe 定义 的 PC 地 址 开始 执行 。 
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。 执行 MRET 指令 不 仅 会 让 处 理 器 跳 转 到 上 述 的 PC 地 址 开始 执行 ， 还 会 让 硬件 同时 
更 新 CSR 寄存 器 机 器 模式 状态 寄存 器 mstatus (Machine Status Register). 

下 文 将 分 别 予 以 话 述 。 

1. 从 mepc 定义 的 PC 地 址 开始 执行 

在 第 13.2.1 节 中 曾经 提 及 ， 在 进入 异常 时 ，mepc 寄存 器 被 同时 更 新 ， 以 反映 当时 遇 到 
异常 的 指令 的 PC 值 。 通 过 这 个 机 制 ， 意 味 着 MRET 指令 执行 后 处 理 器 回 到 了 当时 遇 到 异 禹 
的 指令 的 PC 地 址 ， 从 而 可 以 继续 执行 之 前 被 中 止 的 程序 流 。 

2. 更 新 CSR 寄存 器 mstatus 

mastatus 寄存 器 的 详细 格式 如 图 13-4 所 示 。RISC-V 架构 规定 ， 在 执行 MRET 指令 后 ， 
硬件 将 自动 更 新 机 器 模式 状态 寄存 器 mstatus (Machine Status Register) 的 某 些 域 。 

RISC-V 架构 规定 ， 执 行 MRET 指令 退出 异常 时 有 如 下 情况 。 

e mstatus 寄存 器 MIE 域 的 值 被 更 新 为 当前 MPIE 的 值 。 

。 mstatus 寄存 器 MPIE 域 的 值 则 被 更 新 为 1。 

在 第 13.2.1 节 中 曾 提 及 , 在 进入 异常 时 , MPIE 的 值 曾经 被 更 新 为 异常 发 生前 的 MIE 值 。 
而 MRET 指令 执行 后 ,再 次 将 MIE 域 的 值 更 新 为 MPIE 的 值 。 通 过 这 个 机 制 , 则 意味 着 MRET 
指令 执行 后 ， 处 理 器 的 MIE 值 被 恢复 成 异常 发 生 之 前 的 值 ( 假 设 之 前 的 MIE 值 为 1， 则 意 
味 看 中 断 被 重新 全 局 打开 )。 


13.2.3 ”异常 服务 程序 


如 第 13.2.1 节 中 所 述 ， 当 处 理 器 进入 异常 后 ， 即 开始 从 mtvec 寄存 器 定义 的 PC 地 址 执 
行 新 的 程序 。 该 程序 通常 为 异常 服务 程序 ， 并 且 程 序 还 可 以 通过 查询 mcause "PHJÓT m 
(Exception Code) 决定 进一步 跳 转 到 更 具体 的 异常 服务 程序 。 辟 如 当 程 序 查 询 mcause 中 的 
值 为 0x2， 则 得 知 该 异常 是 非法 指令 错误 (Illegal Instructions) 引起 的 ， 因 此 可 以 进一步 跳 
转 到 非法 指令 错误 异常 服务 子 程 序 中 去 。 

图 13-5 所 示 为 一 异常 入 口 程序 实例 片段 ， 程 序 通 过 读 取 mcause 的 值 ， 进 而 判断 异常 的 
类 型 ， 从 而 进入 不 同 的 异常 服务 子 程 序 。 





图 13-5 异常 服务 程序 示例 片段 
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注意 : 由 于 RISC-V 架构 规定 的 进入 异 第 和 退出 异常 机 制 中 没有 人 硬件 自动 保存 和 恢复 上 
下 文 的 操作 ， 因 此 需要 软件 明确 地 使 用 指令 进行 上 下 文 的 保存 和 恢复 。 


13.3 CREDETE 
13.3.4 PEA 


RISC-V 染 构 定义 的 中 断 类 型 分 为 4 种 。 
o 外 部 中 汤 (External Interrupt) 
e 计时 器 中 断 CTimer Interrupt) 
e 软件 中 断 (Software Interrupt) 
。 调试 中 断 (Debug Interrupt) 
下 文 将 分 别 予 以 详 述 。 
1. 外 部 中 断 
RISC-V 染 构 定义 的 外 部 中 断 要 点 如 下 。 
(1) 外 部 中 断 是 指 来 目 于 人 处理 费 核 外 部 的 中 断 ， 辟 如 外 部 设备 UART、GPIO 等 产生 的 中 断 。 
(2) RISC-V 架构 在 机 器 模式 、 监 督 模式 和 用 户 模 式 下 均 有 对 应 的 外 部 中 断 。 由 于 本 书 
为 简化 知识 模型 ， 在 此 仅 介 绍 “ 只 文 持 机 器 模式 ”的 架构 ， 因 此 仅 介 绍 机 器 模式 外 部 中 断 。 
(3) 机 器 模式 外 部 中 断 (Machine External Interrupt) HJ AEM CSR 寄存 器 mie 中 的 MEIE 
域 控制 ， 等 待 (Pending) 标志 则 反映 在 CSR 寄存 器 mip 中 的 MEIP 域 。 请 参见 第 13.3.2 节 
和 第 13.3.3 节 了 解 mip 和 mip 寄存 器 的 更 多 详情 。 
(4) 机 器 模式 外 部 中 断 可 以 作为 处 理 器 核 的 一 个 单 比特 输入 信和 号， 假设 处 理 器 需要 支持 
很 多 个 外 部 中 断 源 ，RISC-V 染 构 定义 了 一 个 平台 级 别 中 断 控制 器 (Platform Level Interrupt 
Controller, PLIC) 可 用 于 多 个 外 部 中 断 源 的 优先 级 仲裁 和 派发 。 
。 PLIC 可 以 将 多 个 外 部 中 断 源 仲裁 为 一 个 单 比特 的 中 断 信 号 送 入 处 理 器 核 ， 处 理 器 核 收 
到 中 断 进 入 异常 服务 程序 后 ,可 以 通过 读 PLIC 的 相关 寄存 器 查看 中 断 源 的 编号 和 信息 。 
。 处 理 器 核 在 处 理 完 相应 的 中 断 服务 程序 后 , 可 以 通过 写 PLIC 的 相关 寄存 器 和 具体 的 
外 部 中 断 源 的 寄存 器 ， 从 而 清除 中 断 源 《假设 中 断 来 源 为 GPIO， 则 可 通过 GPIO 模 
块 的 中 断 相 关 寡 存 器 清除 该 中 断 )。 
。 AK PLIC 的 详情 请 参见 附录 C. 
(5) 虽然 RISC-V 染 构 只 明确 定义 了 一 个 机 器 模式 外 部 中 断 , 同时 明确 定义 可 通过 PLIC 
在 外 部 管理 众多 的 外 部 中 断 源 将 其 仲裁 成 为 一 根 机 器 模式 外 部 中 断 信 号 传递 给 处 理 器 核 。 但 
是 RISC-V 架构 也 预 留 了 大 量 的 空间 供用 户 扩 展 其 他 外 部 中 断 类 型 ， 如 以 下 3 种。 
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。 CSR 寄存 器 mie 和 mip 的 高 20 位 可 以 用 于 扩展 控制 其 他 的 自 定 义 中 断 类 型 。 请 参 
见 第 13.3.2 节 和 第 13.3.3 节 了 解 mie 和 mip 寄存 器 的 更 多 详情 。 

e 用 户 甚 至 可 以 自 定义 若干 组 新 的 mie<n> 和 mip<n> 寄 存 器 以 支持 更 多 自 定义 中 断 类 型 。 

。 CSR 寄存 器 mcause 的 中 断 异常 编号 域 为 12 及 以 上 的 值 ， 均 可 以 用 于 其 他 目 定 义 中 
断 的 异常 编号 (Exception Code)。 因 此 理论 上 通过 扩展 ，RISC-V 架构 可 以 支持 无 数 
根 自 定义 的 外 部 中 断 (External Interrupt) 信号 直接 输入 给 处 理 器 核 。 请 参见 第 13.2.1 
节 了 解 mcause 寄存 器 的 更 多 详情 。 

2. 计时 器 中 断 

RISC-V 架构 定义 的 计时 器 中 断 要 点 如 下 。 

(1) 计时 器 中 断 是 指 来 自 计 时 器 的 中 断 。 

(2) RISC-V 架构 在 机 器 模式 、 监 督 模式 和 用 户 模 式 下 均 有 对 应 的 计时 器 中 断 。 由 于 本 
书 为 简化 知识 模型 ， 在 此 仅 介绍 “只 支持 机 器 模式 ”的 架构 ， 因 此 仅 介 绍 机 器 模式 计时 器 中 
Wr (Machine Timer Interrupt). 

(3) 机 器 模式 计时 器 中 断 的 屏蔽 由 mie 寄存 器 中 的 MTIE 域 控制 ， 等 待 (Pending) 标 
志 则 反映 在 mip 寄存 器 中 的 MTIP 域 。 请 参见 第 13.3.2 节 和 第 13.3.3 节 了 解 mip 和 mip 寄存 
器 的 更 多 详情 。 

(4) RISC-V 架构 定义 了 系统 平台 中 必须 有 一 个 计时 器 ， 并 给 该 计时 器 定义 了 两 个 64 位 宽 
的 寄存 器 mtime (如 图 13-6 所 示 ) 和 mtimecmp (WR 13-7 所 示 )。mtime 寄存 器 用 于 反映 当前 
计时 器 的 计数 值 ，mtimecmp 用 于 设置 计时 器 的 比较 值 。 当 mtime 中 的 计数 值 大 于 或 者 等 于 
mtimecmp 中 设置 的 比较 值 时 ， 计 时 器 便 会 产生 计时 器 中 断 。 计 时 器 中 断 会 一 直 拉 高 ， 直 到 软件 
重新 写 mtimecmp 寄存 器 的 值 ， 使 得 其 比较 值 大 于 mtime 中 的 值 ， 从 而 将 计时 器 中 断 清除 。 

63 0 
13-6  mtime 寄存 器 


63 0 


64 
13-7 mtimecmp 寄存 器 


e 值得 注意 的 是 ，RISC-V 架构 并 没有 定义 mtime 寄存 器 和 mtimecmp 寄存 器 为 CSR 
寄存 器 ， 而 是 定义 其 为 存储 器 地 址 映射 (Memory Address Mapped) 的 系统 寄存 器 ， 
具体 的 存储 器 映射 (Memory Mapped) 地 址 RISC-V 架构 并 没有 规定 ， 而 是 交 由 SoC 
系统 集成 者 实现 。 
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蜂鸟 E200 配套 SoC 中 的 mtime 和 mtimeemp 寄存 器 的 实现 及 存储 器 地 址 映射 , 请 参 
见 第 13.5.5 节 中 有 关 CLINT 模块 的 介绍 。 

e 另 一 点 值得 注意 的 是 ，RISC-V 架构 定义 mtime 定时 器 为 实时 (Real-Time) 计时 器 ， 系 
统 必 须 以 一 种 恒定 的 频率 作为 计时 器 的 时 钟 。 该 恒定 的 时 钟 频 率 必 须 为 低速 的 电源 常 开 
的 〈Always-on) 时钟， 低速 是 为 了 省 电 ， 常 开 是 为 了 提供 准确 的 计时 。 

3. 软件 中 断 

RISC-V 架构 定义 的 软件 中 断 要 点 如 下 。 

(1) 软件 中 断 是 指 来 自 软件 自己 触发 的 中 断 。 

(2) 由 于 RISC-V 架构 在 机 器 模式 、 监 督 模式 和 用 户 模式 下 均 有 对 应 的 软件 中 断 。 由 于 

本 书 为 简化 知识 模型 ， 在 此 仅 介 绍 “ 只 文 持 机 器 模式 ”的 架构 ， 因 此 仅 介 绍 机 器 模式 软件 中 
Wr (Machine Software Interrupt). 

(3) 机 器 模式 软件 中 断 的 屏蔽 由 mie 寄存 器 中 的 MSIE 3420, 等待 (Pending) 标志 则 

反映 在 mip 寄存 器 中 的 MSIP 域 。 

(4) RISC-V 架构 定义 的 机 器 模式 软件 中 断 可 以 通过 软件 写 1 至 msip 寄存 器 来 触发 。 

e 注意: 此 msip 寄存 器 和 mip 寄存 器 中 的 MSIP 域 命名 不 可 混淆 。 且 RISC-V 架构 并 
没有 定义 msip 寄存 器 为 CSR 寄存 器 ， 而 是 定义 其 为 存储 器 地 址 映射 的 系统 寄存 器 ， 
具体 的 存储 器 映射 地 址 RISC-V 架构 并 没有 规定 ， 而 是 交 由 SoC 系统 集成 者 实现 。 

e 蜂鸟 E200 配套 SoC 中 的 msip 寄存 器 的 实现 及 存储 器 地 址 映射 ， 请 参见 第 13.5.5 节 
中 有 关 CLINT 模块 的 介绍 。 

(5) 当 软 件 写 1 至 msip 寄存 器 触发 了 软件 中 断 之 后 ，CSR 寄存 器 mip 中 的 MSIP 域 便 

会 置 高 ， 反 映 其 等 待 状态 。 软 件 可 通过 写 0 至 msip 寄存 器 来 清除 该 软件 中 断 。 

4. 调试 中 断 

除了 上 述 3 种 中 断 之 外 ， 还 有 一 种 特殊 的 中 断 一 一 调试 中 断 (Debug Interrupt). c FP Wr 

专用 于 实现 调试 器 (Debugger)， 关 于 调试 方案 的 详细 信息 请 参见 第 14 章 。 


13.3.2. ”中 断 屏蔽 


RISC-V 架构 的 狭义 上 的 异常 是 不 可 以 被 屏蔽 的 ， 也 就 是 说 一 旦 发 生 狭 义 上 的 异常 ， 处 
理 器 一 定 会 停止 当前 操作 转 而 处 理 异 常 。 但 是 狭义 上 的 中 断 则 可 以 被 屏蔽 挥 ，RISC-V 架构 
定义 了 CSR 寄存 器 机 器 模式 中 断 使 能 寄存 器 mie (Machine Interrupt Enable Registers) 可 以 
HFE tbi] FP BS BE li o 

(1) mie 寄存 器 的 详细 格式 如 图 13-8 所 示 ， 其 中 每 一 个 比特 域 用 于 控制 每 个 单独 的 中 断 
使 能 。 

。 MEIE 域 控制 机 器 模式 (Machine Mode) 下 外 部 中 断 (External Interrupt) 的 屏蔽 。 
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图 13-8 mie 寄存 器 的 格式 


e MTIE 域 控 制 机 器 模式 (Machine Mode) 下 计时 器 中 断 (Timer Interrupt) 的 屏蔽 。 

。 MSIE 域 控 制 机 器 模式 (Machine Mode) 下 软件 中 断 〈Software Interrupt) 的 屏蔽 。 

(2) 软件 可 以 通过 写 mie 寄存 器 中 的 值 达到 屏蔽 某 些 中 断 的 效果 。 假 设 MTIE 域 为 被 设 
置 成 0， 则 意味 着 将 计时 器 中 断 屏 蔽 ， 处 理 器 将 无 法 响应 计时 器 中 断 。 

(3) 如 果 处 理 器 ( 壁 如 蜂鸟 E2000 只 实现 了 机 器 模式 ， 则 监督 模式 和 用 户 模式 对 应 的 
中 断 使 能 位 (SEIE、UEIE、STIE、UTIE、SSIE 和 USIE) 无 任何 意义 。 

注意 : 由 于 本 书 为 简化 知识 模型 , 在 此 仪 介绍 “只 支持 机 器 模式 ”的 架构 , 因此 对 SEIE, 
UEIE、STIE、UTIE、SSIE 和 USIE 等 不 做 装 述 。 对 其 感 兴趣 的 读者 请 参见 RISC-V“ 特 权 
架构 文档 ”原文 。 

注意 : 除了 对 3 种 中 断 的 分 别 屏 蔽 ， 通 过 mstatus 寄存 器 中 的 MIE 域 还 可 以 全 局 关闭 所 
有 中 断 。 


13.3.3 ”中 断 等 待 


RISC-V 架构 定义 了 CSR 寄存 器 机 器 模式 中 断 等 待 寄存 器 mip(Machine Interrupt Pending 
Registers) 可 以 用 于 查询 中 断 的 等 待 状态 。 

CD mip 寄存 器 的 详细 格式 如 图 13-9 所 示 ; 其 中 的 每 一 个 域 用 于 反映 每 个 单独 的 中 断 等 
待 状态 (Pending). 


XLEN-1 12 11 9 1 
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图 13-9 mip 寄存 器 的 格式 


。 MEIP 域 反映 机 器 模式 (Machine Mode) 下 的 外 部 中 断 的 等 待 (Pending) 状态 。 

。 MTIP 域 反 映 机 器 模式 (Machine Mode) 下 的 计时 器 中 断 的 等 待 CPending) 状态 。 

。 MSIP 域 反 映 机 器 模式 (Machine Mode) 下 的 软件 中 断 的 等 待 (Pending) 状态 。 

(2) 如 果 处 理 器 〈( 辟 如 蜂鸟 E200) 只 实现 了 机 器 模式 ， 则 mip 寄存 器 中 监督 模式 和 用 
户 模 式 对 应 的 中 断 等 待 状态 位 (SEIP、UEIP、STIP、UTIP、SSIP 和 USIP) 无 任何 意义 。 

注意 : 由 于 本 书 为 简化 知识 模型 , 在 此 仅 介 绍 “ 只 支持 机 器 模式 ”的 架构 ,因此 对 SEIP, 
UEIP、STIP、UTIP、SSIP 和 USIP 等 不 做 歼 述 。 对 其 感 兴趣 的 读者 请 参见 RISC-V“ 特 权 架 
构 文档 ”原文 。 
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(3) 软件 可 以 通过 读 mip 寄存 器 中 的 值 达到 查询 中 断 状 态 的 效果 。 
。 如 果 MTP 域 的 值 为 1， 则 表示 当前 有 计时 器 中 断 〈Timer Interrupt) 正在 等 待 
“Pending”。 注 意 : 即便 mie 寄存 器 中 MTIE 域 的 值 为 0 (被 屏蔽 )， 如 果 计 时 器 中 断 
到 来 ， 则 MTIP 域 仍 然 能 够 显示 为 1。 
。 MSIP 和 MEIP 与 MTIP 同 理 。 
(4) MEIP/MTIP/MSIP 域 的 属性 均 为 只 读 ， 软 件 无 法 直接 写 这 些 域 改变 其 值 。 只 有 这 些 
中 断 的 源头 被 清除 后 将 中 断 源 撤销 ，MEIP/MTIP/MSIP 域 的 值 才能 相应 地 归 零 。 璧 如 MEIP 
对 应 的 外 部 中 断 需 要 程序 进入 中 断 服务 程序 后 配置 外 部 中 断 源 ， 将 其 中 断 撤 销 。MTIP 和 
MSIP 同 理 。 下 一 节 将 详细 介绍 中 断 的 类 型 和 清除 方法 。 


13.3.4 中 断 优 先 级 与 仲裁 


对 于 中 断 而 言 ， 第 13.1.1 节 中 曾经 提 到 多 个 中 断 可 能 存在 痢 优 先 级 仲裁 的 情况 。 对 于 
RISC-V 架构 而 言 ， 分 为 如 下 3 种 情况 。 

CD 如 果 3 种 中 断 同时 发 生 ， 其 啊 应 的 优先 级 顺序 如 下 ，mcause 寄存 器 中 将 按 此 优先 
级 顺序 选择 更 新 异常 编号 (Exception Code) 的 值 。 

。 外 部 中 断 CExternal Interrupt) 优先 级 最 高 。 

。 软件 中 断 〈Software Interrupt) 其 次 。 

e 计时 器 中 断 (Timer Interrupt) Bi. 

(2) 调试 中 断 比较 特殊 。 只 有 调试 器 (Debugger) 介入 调试 时 才 发 生 ， 正 常情 形 下 不 会 
发 生 ， 因 此 在 此 不 予 讨 论 。 关 于 调试 方案 的 详细 信息 请 参见 第 14 章 。 

(3) 由 于 外 部 中 断 来 自 PLIC， 而 PLIC 可 以 管理 数量 众多 的 外 部 中 断 源 ， 多 个 外 部 中 断 源 
之 间 的 优先 级 和 仲裁 可 通过 配置 PLIC 的 寄存 器 进行 管理 。 请 参见 附录 C 了 解 PLIC 的 更 多 信息 。 


13.3.5 PHRE 


第 13.1.1 节 中 曾经 提 到 多 个 中 断 理 论 上 可 能 存在 着 中 断 舱 套 的 情况 。 而 对 于 RISC-V 28 
构 而 言 ， 如 第 13.2.1 节 中 所 述 。 
。 进入 异常 之 后 ，mstatus 寄存 器 中 的 MIE 域 将 会 被 硬件 自动 更 新 成 为 0 (意味 着 中 断 
被 全 局 关闭 ， 从 而 无 法 响应 新 的 中 断 )。 
e 退出 中 断后 ，MIE 域 才 被 硬件 自动 恢复 成 中 断 发 生 之 前 的 值 ( 通 过 MPIE 域 得 到 )， 
从 而 再 次 全 局 打开 中 断 。 
由 上 可 见 , 一 旦 响应 中 断 进入 异常 模式 后 ， 中 断 被 全 局 关闭 再 也 无 法 响应 新 的 中 断 ， 因 
此 RISC-V 架构 定义 的 硬件 机 制 默认 无 法 文 持 硬件 中 断 髓 套 行为 。 
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如 果 一 定 要 支持 中 断 肉 套 ， 需 要 使 用 软件 的 方式 达到 中 断 嵌 套 的 目的 ， 从 理论 上 来 讲 ， 
可 采用 如 下 方法 。 | 
(1) 在 进入 异常 之 后 ， 软 件 通过 查询 mcause 寄存 器 确认 这 是 响应 中 断 造 成 的 异常 ， 并 
跳 入 相应 的 中 断 服 务 程 序 中 。 在 这 期 间 ， 由 于 mstatus 寄存 器 中 的 MIE 域 被 硬件 自动 更 新 成 
为 0， 因 此 新 的 中 断 都 不 会 被 响应 。 
(2) 符 程 序 跳 入 中 断 服 务 程序 中 后 ， 软 件 可 以 强行 改写 mstatus 寄存 器 的 值 ， 而 将 MIE 
域 的 值 改 为 1， 意味 着 将 中 断 再 次 全 局 打开 。 从 此 时 起 ， 处 理 器 将 能 够 再 次 响应 中 断 。 但 是 
在 强行 打开 MIE 域 之 前 ， 需 要 注意 如 下 事项 。 
。 假设 软件 希望 屏蔽 比 其 优先 级 低 的 中 断 ， 而 仅 允 许 优先 级 比 它 高 的 新 来 打 断 当前 中 
断 ， 那 么 软件 需要 通过 配置 mie 寄存 器 中 的 MEIE/MTIE/MSIE 域 ， 来 有 选择 地 屏蔽 
不 同类 型 的 中 断 。 

e 对 于 PLIC 管理 的 众多 外 部 中 断 而 言 ， 由 于 其 优先 级 受 PLIC 控制 ,假设 软件 希望 屏蔽 
比 其 优先 级 低 的 中 断 ， 而 仅 人 允许 优先 级 比 它 高 的 新 来 中 断 打 断 当前 中 断 ， 那 么 软件 需 
要 通过 配置 PLIC HHE (Threshold) 寄存 器 的 方式 来 有 选择 地 屏蔽 不 同类 型 的 中 断 。 

(3) 在 中 断 通 套 的 过 程 中 ， 软 件 需要 注意 保存 上 下 文 至 存储 器 堆栈 中 ， 或 者 从 存储 器 堆 
栈 中 将 上 下 文 恢复 〈 与 函数 嵌 套 同 理 )， 

(4) 在 中 断 峙 套 的 过 程 中 ， 软 件 还 需要 注意 将 mepc 寄存 器 ， 以 及 为 了 实现 软件 中 断 岩 
套 被 修改 的 其 他 CSR 寄存 器 的 值 保 存 至 存储 器 堆栈 中 ， 或 者 从 存储 器 堆栈 中 恢复 〈 与 函数 
REHA). 

除 此 之 外 ，RISC-V HE NAFHA E ÉL E AI r8 h as S X, R8 PE nj E aE DRE e 


13.3.6 f LES 


中 汤 和 异常 虽说 本 喘 不 是 一 种 指令 , 但 却 是 处 理 器 指令 集 架构 非常 重要 的 一 环 , 任何 一 
种 指令 集 架 构 都 会 安排 专门 的 章节 去 定义 中 断 和 异常 的 行为 。 同时 中 断 和 异常 也 往往 是 最 复 
杂 和 难以 理解 的 部 分 ， 可 以 说 要 了 解 一 门 处 理 器 架构 ,熟悉 其 中 断 和 异常 的 处 理 机 制 是 必 不 
可 少 的 。 

对 ARM 的 Cortex-M 系列 或 者 Cortex-A 系列 比较 熟悉 的 读者 , 可 能 会 了 解 Cortex-M 系 
列 定义 的 侍 套 向 量 中 断 控制 器 (Nested Vector Interrupt Controller, NVIC) 和 Cortex-A 系列 
定义 的 通用 中 断 控制 器 (General Interrupt Controller，GIC )。 这 两 种 中 断 控 制 器 都 非常 强大 ， 
但 也 非常 复杂 。 相 比 而 言 , RISC-V 架构 中 断 和 异常 机 制 则 要 简单 得 多 , 这 同样 反映 了 RISC-V 
架构 力图 简化 硬件 的 设计 哲学 。 
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13.4 ie A lL::E doe 


将 RISC-V 架构 中 所 有 中 断 和 异常 相关 的 寄存 器 加 以 总 结 ， 如 表 13-2 所 示 。 





表 13-2 中 断 和 异常 相关 的 寡 存 器 
OE MD TRETEN 描述 
机 器 模式 异常 入 口 基地 址 寄存 器 (Machine Trap-Vector 
定义 进入 异常 的 程序 PC 地 址 


Base-Address Register) 
机 器 模式 异常 原因 寄存 器 (Machine Cause Register) 反映 进入 异常 的 原因 


] | 
2 
8 


g 
< 
A 


机 器 模式 异常 值 寄存 器 (Machine Trap Value Register) | 反映 进入 异常 的 信息 
(mbadaddr) 


机 器 模式 异常 PC 寄存 器 (Machine Exception Program 


Counter ) 


用 于 保存 异常 的 返回 地 址 
CSR 


机 器 模式 状态 寄存 器 (Machine Status Register) en A PE 
用 于 反映 中 断 全 局 使 能 
机 器 模式 中 断 使 能 寄存 器 (Machine Interrupt Enable 

Registers) 

机 器 模式 中 断 等 待 寄存 器 (Machine Interrupt Pending 

Registers ) 

机 器 模式 计时 器 寄存 器 (Machine-mode timer register) | 反映 计时 器 的 值 

机 器 模式 计时 器 比较 值 寄存 器 (Machine-mode timer 

compare register ) 

机 器 模式 软件 中 断 等 待 寄存 器 (Machine-mode 

Software Interrupt Pending Register) 


PLIC PLIC 的 所 有 功能 寄存 器 ， 请 参见 附录 C5 


用 于 控制 不 同类 型 中 断 的 局 部 使 能 


反映 不 同类 型 中 断 的 等 待 状态 
mtime 


Memory mtimecmp 


Address 


配置 计时 器 的 比较 值 


Mapped 


用 以 产生 或 者 清除 软件 中 断 


13.5 ESSTZTTUEETS TNI 


本 节 将 介绍 蜂 乌 E200 处 理 器 对 异常 处 理 的 硬件 实现 和 源码 分 析 。 


13.5.1 蜂鸟 E200 处 理 器 的 异常 和 中 断 实 现 要 点 
蜂鸟 E200 处 理 器 对 于 异 音 和 中 断 的 硬件 实现 ， 要 点 概述 如 下 。 
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e 蜂鸟 E200 为 “只 支持 机 器 模式 ”架构 ， 且 没有 实现 MPU 与 MMU 不 会 产生 虚拟 
地 址 Page Fault 相关 的 异常 )， 因 此 只 文 持 上 一 节 中 描述 的 RISC-V 架构 中 和 机 器 模 
式 相 关 的 异常 类 型 。 

e 蜂鸟 E200 只 实现 了 RISC-V 架构 定义 的 3 种 基本 中 断 类 型 (软件 中 断 、 计 时 器 中 断 、 
外 部 中 断 )， 并 未 实现 更 多 的 自 定义 中 断 类 型 。 

e $Ó, E200 的 mtvec 寄存 器 最 低位 的 MODE 域 仅 支持 模式 0， 即 所 有 的 异常 响应 时 
处 理 器 均 跳 转 到 BASE 域 指示 的 PC 地 址 。 


13.5.2 ”蜂鸟 E200 处 理 器 的 异常 类 型 


综合 上 一 节 所 述 ， 蜂 乌 E200 处 理 器 支持 的 中 断 和 异常 类 型 总 结 如 表 13-3 所 示 。 
表 13-3 蜂鸟 E200 处 理 器 的 异常 和 中 断 类 型 


A 异常 和 中 断 类 型 同步 /异步 描 述 
( Exception Code) 
机 器 模式 软件 中 断 〈Machine 
3 精确 异步 机 器 模式 软件 中 断 
software interrupt ) 


chum 机 器 模式 计时 器 中 断 
i - 精确 异步 机 器 模式 计时 器 中 断 
(Interrupts ) ( Machine timer interrupt ) 
机 器 模式 外 部 中 断 〈Machi 
"e | 精确 异步 机 器 模式 外 部 中 断 
external interrupt ) 
指令 地 址 非 对 齐 〈Instructi 
address misaligned) 
指令 访问 错误 (In i 
access fault) 
2 非法 指令 (Illegal instruction) | 同步 非法 指令 
RISC-V 架构 定义 了 EBREAK 指令 ， 
当 处 理 器 执行 到 该 指令 时 ， 会 发 生 异 
异常 断 点 〈Breakpoint) 常 进入 异常 服务 程序 。 该 指令 往往 用 


(Exceptions) 于 调试 器 (Debugger) 使 用 ， 辟 如 设 


置 断 点 


读 存 储 器 地 址 非 对 齐 (Load 

address misaligned) 

读 存 储 器 访问 错误 (Load 
access fault) 
写 存 储 器 和 AMO 地 址 非 对 齐 
(Store/AMO address misaligned ) 





可 
SE 
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续 表 


(Exception Code) 
AMO 访问 错 i 
& hoy WARR | 非 精确 异步 | Store 或 者 AMO 指令 访 存 错误 
( Store/AMO access fault) 


机 器 模式 下 执行 ECALL 指令 。 

RISC-V 架构 定义 了 ECALL 指令 , 当 
同步 处 理 器 执行 到 该 指令 时 ， 会 发 生 异 常 

进入 异常 服务 程序 。 该 指令 往往 供 软 

件 使 用 ， 强 行进 入 异常 模式 

RISC-V 架构 只 定义 了 异常 编号 从 0 

到 15 的 16 种 异常 。 因 此 该 异常 不 是 
EAI 指令 写 回 错误 (EAI HARE RISC-V Zug XEM. IES 
Instruction Write-Back Error) 常 是 用 于 蜂鸟 E200 的 协 处 理 器 扩展 
指令 写 回 错误 造成 的 异常 。 有 关 EAI 
协 处 理 器 信息 请 参见 第 16 章 


异常 


(Exceptions) 





13.5.3 #45 E200 处 理 咒 对 于 mepc 的 处 理 


在 第 13.2.1 节 中 曾经 提 及 RISC-V 架构 在 中 断 和 异常 时 的 返回 地 址 定义 (更 新 mepc 的 
值 ) 有 细微 的 差别 。 在 出 现 中 断 时 ， 中 断 返 回 地 址 mepe 被 指 癌 下 一 条 尚未 执行 的 指令 。 在 
出 现 异 常 时 ，mepc 则 指向 当前 指令 ， 因 为 当前 指令 触发 了 异常 。 

按照 此 原则 ， 蜂 乌 E200 处 理 器 核对 于 mepe 值 的 更 新 原则 如 下 。 

。 对 于 同步 异常 ，mepc 值 更 新 为 当前 发 生 异 常 的 指令 PC 值 。 

。 对 于 精确 异步 异常 〈 即 中 断 )，mepc 值 更 新 为 下 一 条 尚未 执行 的 指令 PC fü. 

。 对 于 非 精 确 异步 异 常 ，mepc 值 更 新 为 当前 发 生 异 常 的 指令 PC 值 。 

e 蜂鸟 E200 处 理 器 核实 现 中 同步 异常 ， 精 确 异 步 异 常 以 及 非 精 确 异 步 异 常 的 分 类 如 表 

13-5 所 示 。 


13.5.4 4456 E200 处 理 器 的 中 断 接 口 


如 图 13-10 所 示 ， 在 处 理 器 顶层 接口 中 有 4 根 中 断 输 入 信号 ， 分别 是 软件 中 断 、 计 时 器 
中 断 、 外 部 中 断 和 调试 中 断 。 
e SoC 层面 的 CLINT 模块 产生 一 根 软件 中 断 信号 和 一 根 计 时 器 中 断 信号 ， 通 给 蜂鸟 
E200 处 理 器 核 。 
。 SoC 层面 的 PLIC 接 入 多 个 外 部 中 断 源 将 其 仲裁 后 生成 一 根 外 部 中 断 信 号 , 通 给 蜂 乌 
E200 处 理 器 核 。 
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。 SoC 层面 的 调试 模块 生成 一 根 调试 中 断 ， 通 给 蜂 乌 E200 处理 器 核 。 
。 所 有 的 中 断 信 号 均 由 蜂鸟 E200 处 理 器 核 的 交付 模块 进行 处 理 。 
CLINT, PLIC 以 及 交付 模块 的 相关 硬件 实现 和 源 代码 分 析 将 在 后 续 章 节 分 别 予 以 介绍 。 











图 13-10 ”中断 和 异常 处 理 在 流水 线 中 的 位 置 


13.5.5 446 E200 处理 器 CLINT 微 案 构 及 源码 分 析 


CLINT 全 称 为 处 理 器 核 局 部 中 断 控 制 器 (Core Local Interrupts Controller). CLINT 是 一 
个 存储 器 地 址 映射 的 模块 ， 挂 载 在 处 理 器 核 为 其 实现 的 专用 总 线 接口 上 ， 在 蜂鸟 E200 配套 
的 SoC 中 其 寄存 器 的 地 址 区 间 如 表 13-4 所 示 。 注意: CLINT 的 寄存 器 只 支持 操作 尺寸 (Size) 
为 32 位 的 读 写 访问 。 


表 13-4 CLINT 寄存 器 的 存储 器 映射 地 址 (Memory Mapped Address) 
地 ad 寄存 器 名 称 功能 描述 


0x0200 0000 生成 软件 中 断 


0x0200 4000 mtimeemp ^ | 配置 计时 器 的 比较 值 


0x0200 BFF8 反映 计时 器 的 值 
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1. 生成 软件 中 断 

CLINT 可 以 用 于 生成 软件 中 断 ， 要 反 如 下 。 

e CLINT 中 实现 了 一 个 32 位 的 msip 寄存 器 。 该 寄存 器 只 有 最 低位 为 有 效 位 ， 该 寄存 
器 有 效 位 直接 作为 软件 中 断 信 号 通 给 处 理 器 核 。 

。 当 软 件 写 1 至 msip 寄存 器 触发 了 软件 中 断 之 后 , CSR 寄存 器 mip 中 的 MSIP 域 便 会 
置 高 指示 当前 中 断 等 待 CPending) 状态 。 

。 软件 可 通过 写 0 至 msip 寄存 器 来 清除 该 软件 中 断 。 

2. 生成 计时 器 中 断 

CLINT 可 以 用 于 生成 计时 器 中 断 ， 要 点 如 下 。 

。 CLINT 中 实现 了 一 个 64 位 的 mtime 寄存 器 。 该 寄存 器 反映 了 64 位 计时 颖 的 值 。 计 
时 器 根据 低速 的 输入 节拍 信号 进行 计时 ， 计 时 器 默认 是 打开 的 ， 因 此 会 一 直 计 数 。 
注意 : 由 于 CLINT 的 计时 器 上 电 后 会 默认 一 直 计 数 ， 因 此 为 了 在 某 些 特 殊 情 况 下 关 
闭 此 计时 器 计数 ,可 以 通过 蜂鸟 E200 目 定义 的 CSR 寄存 器 mcounterstop 中 的 TIMER 
域 进行 控制 ， 请 参见 附录 B3.1 节 了 解 mcounterstop 寄存 器 的 更 多 信息 。 

e CLINT 中 实现 了 一 个 64 位 的 mtimecmp 寄存 器 。 该 寄存 器 作为 计时 器 的 比较 值 ， 假 
设计 时 器 的 值 mtime 大 于 或 者 等 于 mtimecmp 的 值 ， 则 产生 计时 器 中 断 。 软 件 可 以 
通过 改写 mtimecmp 的 值 〈 使 其 大 于 mtime 的 值 ) 来 清除 计时 器 中 断 。 

3. 源 代 码 要 点 

CLINT 相关 源 代 码 在 e200 opensource 目录 的 结构 如 下 。 关 于 GitHub 网 站 上 

e200 opensource 开源 项 目的 完整 代码 层次 结构 ， 请 参见 第 17.1 节 。 


e200 opensource 


|----rtl // 存放 RTL 的 目录 
| ----e203 // E203 核 和 Soc 的 RTL 目录 
|----subsys // 存放 子 系统 的 RTL 代码 
|----e203 subsys clint.v  // CLINT 的 源 代码 例 化 模块 
|----perips // 存放 外 设 的 RTL 代码 
|----e203 clint top.v // CLINT 的 源 代码 顶层 模块 
|----e203 clint.v // CLINT 的 源 代码 模块 


|----sirv aon wrapper.v // Always-on 模块 的 源 代码 


注意 : 蜂鸟 E200 的 SoC 系统 是 基于 SiFive 公司 开源 的 Freedom E310 SoC 二 次 开发 所 
得 。 因 此 e203 clintv 模块 来 自 Freedom E310 SoC， 其 代码 为 高 级 Chisel 语言 编译 生成 的 
Verilog 代码 。 有 关 SiFive 公司 开源 Freedom E310 SoC 与 Chisel 语言 的 简介 ,请 参见 第 3.1.1 
节 和 3.1.3 节 。 

CLINT 顶层 模块 e203_clint_top 有 一 根 低速 的 输入 节拍 信号 io_rtcToggle。 该 信号 来 目 
SoC 中 低速 的 电源 常 开 域 (PowerAlways On Domain) 的 io rtc 信号 ， 因 此 io_rtcToggle 的 翻 
转 频 率 与 低速 时 钟 的 频率 一 致 。 相 关 源 代码 片段 如 下 所 示 。 
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// sirv aon wrapper.v 源 代码 片段 


// io rtc 的 翻转 频率 受 低速 时 钟 aon. clock 控制 。 

wire io rtc nxt = «io rtc; 

wire aon rst n = -aon reset; 

sirv gnrl dffr $(1) io rtc dffr (io rtc nxt, io rtc, aon clock, aon rst n); 


由 于 CLINT 模块 处 于 与 处 理 器 核 相 同 的 时 钟 域 , 而 io rteToggle 信号 来 自 低 速 的 电源 常 
开 时 钟 域 ， 因 此 io rtcToggle 信号 进入 CLINT 模块 属于 异步 信号 ， 需 要 对 其 进行 同步 ， 然 后 
对 同步 后 的 信号 进行 边沿 检测 ， 然 后 使 用 探测 到 的 边沿 信和 号 控制 计时 器 的 值 增加 一 。 相 关 源 
代码 片段 如 下 所 示 。 


// e203 subsys clint.v 源 代码 片段 


// 使 用 sirv gnrl sync 同步 模块 对 aon rtcToggle 进行 同步 。 
wire aon rtcToggle r; 
sirv gnrl sync # ( 


| 
| 
| 
| 
| 
| 
| 
| .DP('E203 ASYNC FF LEVELS), 
| 

| 


.DW(1) 
) u aon rtctoggle sync( 
.din a (aon rtcToggle a), 
.dout (aon rtcToggle r), 
| CLE (CIK Js 


| .rst n (rst n) 


) ; 


| // sirv clint top.v 源 代码 片段 


// 将 io rtcToggle 信号 寄存 一 拍 。 
wire io rtcToggle r; 
sirv gnrl dffr (1) io rtcToggle dffr (io rtcToggle, io rtcToggle r, clk, 
rst n); 


// 通 过 将 io rtcToggle 信号 与 寄存 后 的 io rtcToggle r 进行 异 或 计算 ， 从 而 探测 
// 出 io rtcToggle 信号 的 边沿 。 


| wire io rtcToggle edge - io rtcToggle ^ io rtcToggle r; 
wire io rtcTick - io rtcToggle edge; 


| // sirv clint.v 源 代码 片段 
// 该 代码 为 Chisel 编译 生成 所 得 ， 因 此 属于 机 器 生成 代码 ， 人 工 可 读 性 比较 差 。 


| //io rtcTick 信号 指示 io rtcToggle 信号 的 边沿 。 
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assign T 904 
assign T 906 
assign T 907 
assign T 909 


(time l,time 0}; 

T 904 + 64'hl;// 计 时 器 按照 io rtcTick 信号 的 脉冲 进行 自 增加 1 
T 906[63:0]; 

T 907[63:32]; 


assign GEN 6 


io rtcTick ?T 907 : [(32'd0]), time 0}; 
assign GEN 10 = T 1280 ? {{32'd0}, T 1015 bits data) :GEN 6; 


always G(posedge clock or posedge reset) begin 
if (reset) begin 
time 0 «- 32'h0; 
end else begin 
time 0 <= GEN 10[31:0];// 计 时 器 的 低 32 位 寄存 器 
end 
end 


always G(posedge clock or posedge reset) begin 
if (reset) begin 
time 1 «- 32'h0; 
end else begin 
if (T 1320) begin 
time 1 <= T 1015 bits _ data;// 计 时 器 的 值 也 可 以 被 软件 改写 
end else begin 
if (io rtcTick) begin 
time 1 <= T 909; // 计 时 器 的 高 32 位 寄存 器 
end 
end 
end 
end 


以 上 仅 对 最 关键 的 代码 片段 予以 讲解 分 析 ， 完 整 源 代 码 请 读者 于 GitHub 上 的 
e200 opensource 项 目 中 目 行 阅读 。 


13.5.6 46 E200 处 理 器 PLIC 微 染 构 及 源码 分 析 


PLIC 全 称 为 平台 级 别 中 断 控 制 器 (Platform Level Interrupt Controller), '4& RISC-V 2€ 
构 标 准 定义 的 系统 中 断 控制 器 ， 主 要 用 于 多 个 外 部 中 断 源 的 优先 级 仲裁 和 派发 。 关 于 PLIC 
的 详情 ， 请 参见 附录 C。 

PLIC 是 一 个 存储 器 地 址 映射 的 模块 ， 挂 载 在 处 理 器 核 为 其 实现 的 专用 总 线 接口 上 ， 在 
蜂鸟 E200 配套 的 SoC 中 其 寄存 器 的 地 址 区 间 如 表 13-5 所 示 。PLIC 的 寄存 器 只 支持 size 为 
32 位 的 读 写 访问 。 

表 13-5 PLIC 寄存 器 的 存储 器 映射 地 址 


Hb 址 寄存 器 英文 名 称 寄存 器 中 文 名 称 
TY TT 
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续 表 
地 址 育 存 器 英文 名 称 寄存 器 中 文 名 称 

POCOLOFFC FNI 1023 ARAA 

0x0C00 1000 Start of pending array (read-only) 中 断 等 待 标志 的 起 始 地 址 
KITT 条 等待 标志 的 结 来 好 下 
0x0C00 2000 Target 0 enables 中 断 目标 0 的 使 能 位 

(X020 090 FIEL O 的 优先 级 站 
Ox0C20 000 EIEE O BRER 


注意 : 

e 该 PLIC 理论 上 可 以 支持 1024 个 中 断 源 ， 所 以 此 表 定 义 了 1024 个 优先 级 (priority〉 寄存 器 的 地 址 和 1024 位 等 待 阵列 
(pending array) 寄存 器 的 地 址 。 但 是 目前 在 蜂鸟 E200 SoC 的 PLIC 中 ， 实 际 只 使 用 到 了 表 13-6 中 的 中 断 源 

e 该 PLIC 理论 上 可 以 支持 多 个 中 断 目标 “Target)。 由 于 蜂鸟 E200 处 理 器 是 一 个 单 核 处 理 器 ， 且 仅 实 现 了 机 器 模式 ， 因 此 
仅 用 到 PLIC 的 Target0， 表 中 的 Target 即 为 蜂鸟 E200 处理 器 核 

。 由 于 蜂鸟 E200 的 PLIC 在 SoC 中 的 地 址 映射 与 SiFive 公司 开源 的 Freedom E310 SoC 中 PLIC 寄存 器 地 址 映射 表 完 全 一 致 。 
请 参见 附录 CS 中 关于 Freedom E310 SoC 中 PLIC 的 寄存 器 地 址 映射 与 各 配置 寄存 器 功能 的 详细 介绍 


PLIC 理论 上 可 以 支持 高 达 1024 个 外 部 中 断 源 ,在 具体 的 SoC 中 连接 的 中 断 源 个 数 可 以 
不 一 样 。 蜂 鸟 E200 的 SoC 系统 基于 SiFive 公司 开源 的 Freedom E310 SoC 开发 所 得 。PLIC 
在 此 SoC 中 连接 了 GIPO, UART, PWM 等 多 个 外 部 中 断 源 ， 其 中 断 分 配 如 表 13-6 所 示 。 
PLIC 将 多 个 外 部 中 断 源 仲裁 为 一 个 单 比 特 的 中 断 信 号 送 入 蜂 乌 E200 处 理 器 核 。 请 参见 第 
18.2 节 了 解 更 多 SoC 的 详细 信息 。 


表 13-6 PLIC 的 中 断 分 配 
PLIC 源 中 断 号 来 dk 
预 留 为 表示 没有 中 断 


wdogcmp 


ol kh 人 to | 一 | 已 
a 


EE 
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续 表 
PLIC 源 中 断 号 来 源 
40 pwmOcmp0 
43 pwmOücmp3 
44 pwmlcmp0 
47 pwmlcmp3 
48 pwm2cmpO 
51 pwm2cmp3 


PLIC 的 相关 源 代 码 在 e200 opensource 目录 的 结构 如 下 。 关 于 GitHub 网 站 上 
e200 opensource 开源 项 目的 完整 代码 层次 结构 ， 请 参见 第 17.1 节 。 


e200 opensource 


|----rtl // 存放 RTL 的 目录 
| ----e203 // E203 核 和 Soc 的 RTL 目录 
|----subsys // 存放 子 系统 的 RTL 代码 
|----e203 subsys plic.v // PLIC 的 源 代码 例 化 模块 
|----perips // 存放 外 设 的 RTL 代码 


|----e203 plic top.v // PLIC 的 源 代码 顶层 模块 
|----e203 plic main.v  // PLIC 的 源 代码 模块 


由 于 PLIC 模块 处 于 与 处 理 嚣 核 相同 的 时 钟 域 ，PLIC 连接 的 大 多 数 中 断 来 源 的 设备 与 
PLIC 处 于 同一 个 时 钟 域 ， 而 RTC 和 WatchDog 中 断 则 来 自 低速 的 电源 常 开 时 钟 域 ， 需 要 特 
别 对 其 进行 同步 。 请 参见 第 18.2 节 了 解 更 多 SoC 的 详细 信息 。 相 关 源 代码 片段 如 下 所 示 。 

// e203 subsys plic.v 源 代码 片段 


output plic ext irq,// PLIC 最 后 仲裁 所 得 的 一 根 输出 信号 作为 外 部 中 断 通 给 处 理 器 核 。 


Te 


// 使 用 sirv_gnrl sync 同步 模块 对 rtc irq a 和 wdg irq a 进行 同步 。 
wire wdg irq r}; 
wire rtc irq r; 


sirv gnrl sync $ ( 
.DP('E203 ASYNC FF LEVELS), 


.DW(1) 

)u rtc irq sync( 
.din a (rtc irq a), 
.dout (rto irq r), 
.Clk (clk ), 


.rst n (rst n) 


); 


sirv gnrl sync $ ( 
.DP('E203 ASYNC FF LEVELS), 


.DW (1) 


) u wdg irq sync( 
(wdg irq a), 
(wdg irq r), 


.din a 
.dout 
.Glk 


wire 
wire 
wire 
wire 
wire 
wire 
wire 
wire 
wire 
wire 
wire 
wire 
wire 
wire 
wire 
wire 
wire 
wire 
wire 
wire 
wire 
wire 
wire 
wire 
wire 
wire 
wire 
wire 
wire 
wire 
wire 
wire 
wire 
wire 
wire 
wire 
wire 
wire 


(clk J: 
(rst n) 


分 配 多 个 外 部 中 断 源 作为 PLIC 的 输入 。 


plic irq i O0 
plic irq i i 
plic irq i 2 
plic irg ài 3 
plic irq i 4 
plic irq i 5 
plic irq i 6 
plic irq i 7 
poc irq 1-8 
plic irq i 9 
plic' irg i 20 
plie i£q i 11 
plic irq i 12 
plic irq i 13 
plic irq i 14 
plic irg i 15 
plic irq i 16 
plic lrg 317 
plic irq i 18 
plic irg 1:19 
plic irq i 20 
piic irg i Z1 
plic irq i 22 


plic irq i 23 = 


plic irq i 24 
plic irg i. 25 
plic irq i 26 
plic irq i 27 
plic irq i 28 
plic irq i 29 
plic irq i 30 
plic irq i 31 
piic irq i 32 
piicriog: 4 22 
plic irq i 34 
pric irg i 35 
plic irq i 36 
plioc irg i 37 
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= wdg irq r; // 来 自 WatchDog 模块 的 中 断 
rtc irq r; // 来 自 RTC 模块 的 中 断 


uartÜ0 irg; 
uartl irq; 
qspi0 irq; 
qspil irq; 
qspi2 irq; 
gpio irq 0 ; 


gpio irq 1 ; 
gpio irq 2 ; 
gpio irq 3 ; 
gpio irq 4 ; 
gpio irq 5 ; 


gpio irq 6 ; 


gpio irq 8 
gpio irq 9 


, 
gpio irq 7 ; 
, 
, 


gpio irq 10; 
gpio irq 11; 
gpio irq 12; 
gpio irq 13; 
gpio irq 14; 
gpio irq 15; 
gpio irq 16; 
gpio irq 17; 


gpio irq 18; 


gpio irq 19; 
gpio irq 20; 
gpio irq 21; 
gpio irq 22; 
gpio irq 23; 
gpio irq 24; 
gpio irq 25; 


gpio irq 26; 


gpio irq 27; 
gpio irq 28; 
gpio irq 29; 
gpio irq 30; 
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wire plic irq i 38 
wire plic irq i 39 
wire plic irq i 40 
wire plic irq i 41 


x gpio irq 31; 
wire plic irq i 42 
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wire plic irq i 43 
wire plic irq i 44 
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wire plic irq i 45 
wire plic irq i 46 
wire plic irq i 47 


wire plic irq i 48 
wire plic irq i 49 - pwm2 irq 2; 
wire plic irq i 50 - pwm2 irq 3; 


以 上 仅 对 关键 的 代码 片段 予以 讲解 分 析 ， 完 整 源 代码 请 读者 到 GitHub 上 的 e200 opensource 
项 目 中 目 行 阅读 。 


13.5.7 ”蜂鸟 E200 处 理 器 交付 模块 对 中 断 和 异常 的 处 理 


在 第 9 章 中 介绍 过 交付 模块 是 指令 的 交付 点 , 一 条 指令 一 旦 被 交付 ， 则 意味 着 它 真 正 得 
到 了 执行 。 因 此 蜂鸟 E200 的 中 断 和 异常 处 理 均 在 交付 模块 中 进行 处 理 ， 如 图 13-10 中 圆圈 
处 所 示 。 

1. 异常 的 处 理 

交付 模块 对 于 异常 处 理 部 分 的 要 点 如 下 。 

e 交付 模块 接受 来 自 ALU 的 交付 请 求 , 对 于 每 一 条 ALU 执行 的 指令 , 可 能 发 生 异 常 。 
如 果 没 有 发 生 异 常 ， 则 该 指令 顺利 交付 | 如 果 发 生 了 异常 ， 则 会 造成 流水 线 冲刷 
(Pipeline Flush). ALU 指令 造成 的 异常 均 为 同步 异常 ， 如 表 13-3 所 示 ， 同 步 异 常 均 
来 自 于 ALU 模块 。 同 步 异 常 能 够 准确 地 定位 于 当前 正在 执行 的 ALU 指令 ,因此 mepe 
寄存 器 中 更 新 的 PC 值 即 为 当前 正在 交付 指令 (来 自 于 ALU 接口 ) 的 PC. 

e 交付 模块 接受 来 自 长 指令 写 回 时 的 交付 请 求 ， 每 一 条 长 指令 可 能 发 生 异 常 。 如 果 没 
有 发 生 异 常 ， 则 该 指令 顺利 交付 ， 如 果 发 生 了 异常 ， 则 会 造成 流水 线 冲 刷 (Pipeline 
Flush)。 长 指令 写 回 的 异常 均 为 非 精 确 异 步 异 常 ， 如 表 13-3 所 示 ， 非 精确 异步 异种 
均 来 自 长 指令 写 回 时 的 请 求 。 

长 指令 异常 的 “异常 返回 地 址 ”将 会 使 用 此 指令 自己 的 PC， 即 mepe 寄存 器 中 更 新 的 

PC 值 为 此 指令 的 PC。 但 是 由 于 这 长 指令 可 能 已 经 被 交付 了 ， 若 干 个 周期 过 去 了 ， 且 在 这 若 
干 周期 内 可 能 又 有 新 的 后 续 指 令 已 经 写 回 了 通用 寄存 器 组 , 因此 其 响应 异常 后 的 处 理 器 状态 
是 一 种 非 精 确 状 态 〈 无 法 定义 为 某 一 条 指令 的 边界 )， 属 于 非 精 确 异 步 异 常 。 

2. 中 断 的 处 理 

交付 模块 对 于 中 断 处 理 部 分 的 要 点 如 下 。 
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e。 交付 模块 接受 来 自 CLINT 和 PLIC 的 3 根 中 断 信 号 的 请 求 ， 蜂 乌 E200 的 实现 中 将 
中 断 作 为 一 种 精确 异步 异常 ， 这 种 异常 的 “异常 返回 地 址 ”将 会 为 下 一 条 尚未 交付 
的 指令 ， 即 mepe 寄存 器 中 更 新 的 PC 值 即 为 下 一 条 待 交 付 的 指令 (来 自 于 ALU 接 
口 ) 的 PC. 

e 当 异 步 异 常 和 ALU 造成 的 同步 异常 以 及 中 断 同时 发 生 时 ， 优 先 级 依次 为 : 长 指令 造 
成 的 异步 异常 优先 级 最 高 ， 中 断 造成 的 异步 异常 其 次 ，ALU 造成 的 同步 异常 最 后 。 

e 异常 一 旦 发 生 ， 便 会 冲刷 流水 线 ， 将 后 续 的 指令 取消 挥 ， 并 问 IFU 模块 发送 冲刷 请 
求 (Flush Request) 和 重新 取 指 令 的 PC〈 称 之 为 Flush PC)， 用 以 重新 从 新 的 PC 地 
址 开始 取 指 令 。 

。 特殊 的 调试 中 断 也 在 交付 模块 中 处 理 ， 本 章 不 做 介绍 ， 请 参见 第 14 章 了 解 调试 相关 
的 信息 。 

3. 源 代 码 要 点 

蜂鸟 E200 处 理 器 核 中 断 和 异常 处 理 的 相关 源 代 码 在 e200 opensource 目录 的 结构 如 下 。 

关于 GitHub 网 站 上 e200_opensource 开源 项 目的 完整 代码 层次 结构 详解 ， 请 参见 第 17.1 节 。 


e200 opensource 


|----rtl // 存放 RTL 的 目录 
| ----e203 // E203 Efl Soc 的 RTL 目录 
|----general // 存放 一 些 公用 的 通用 RTL 代码 
| ----core // 存放 e203 Core 的 RTL 代码 
|----e203 exu commit.v // 交 付 模 块 顶 层 
|----e203 exu excp.v // 交 付 模 块 中 处 理 


// ”异常 和 中 断 的 子 模块 


交付 模块 中 的 中 断 和 异常 处 理 相关 源 代 码 片 段 如 下 所 示 。 
// e203 exu excp.v 源 代码 片段 


// 生成 冲刷 请 求 ， 包 括 长 指令 造成 的 异常 、 调 试 中 断 造成 的 异常 、 普 通 中 断 造成 的 异常 和 ALU 指令 造 
成 的 异常 。 


assign excpirq flush req = longp excp flush req | dbg entry flush req | ir 
q flush req | alu excp flush req; 


// 生成 重新 取 指 令 的 PC (Flush PC) ， 只 要 不 是 调试 中 断 造成 的 冲刷 ， 都 会 使 用 CSR 寡 存 器 mtvec 
中 的 值 。 

assign excpirq flush pc = dbg entry flush req ? 'E200 PC SIZE'h800 : (all e 
xcp flush req & dbg mode) ? 'E200 PC SIZE'h808 : csr mtvec r; 


244 | 不 得 不 说 的 故事 一 中 断 和 异常 


// 根据 中 断 的 类 型 ， 更 新 mcause 寡 存 器 中 的 异常 编号 (Exception Code) 


assign irq cause[31] = 1'b1; 
assign irq cause[30:4] - 27'b0; 
assign irq cause[3:0] sft irq r ? 4'd3 :// 3 Machine software interrupt 
tmr irq r ? 4'd7 :// 7 Machine timer interrupt 
ext irq r ? 4'dll :// 11 Machine external interrupt 
4'b0; 


// 根据 异常 的 类 型 ， 更 新 mcause 寄存 器 中 的 异常 编号 


wire ['E200 XLEN-1:0] excp cause; 

assign excp cause[31:5] = 27'b0; 

assign excp cause[4:0] = 
alu excp flush req ifu misalgn? 5'd0 //Instruction address misaligned 
alu excp flush req ifu buserr ? 5'dl //Instruction access fault 
alu excp flush req ifu ilegl ? 5'd2 //Illegal instruction 
alu excp flush req ebreak ? 5'd3 //Breakpoint 
alu excp flush req ld misalgn ? 5'd4 //load address misalign 
(longp excp flush req ld buserr | alu excp flush req ld buserr) ? 5'd 

5 //1oad access fault 
: alu excp flush req stamo misalgn ? 5'd6 //Store/AMO address misalign 
(longp excp flush req st buserr | alu excp flush req stamo buserr) ? 
| 5'd7 //Store/AMO access fault 

(alu excp flush req ecall & u mode) ? 5'd8 //Environment call from U- 


mode 
mode 

(alu excp flush req ecall & h mode) ? 5'd10 //Environment call from H 
-mode 

(alu excp flush req ecall & m mode) ? 5'd11 //Environment call from M 
-mode 


longp excp flush req insterr ? 5'd16// This only happened for the EAI 
long instructions actually 


| 

| 

| 

| 

: (alu excp flush req ecall & s mode) ? 5'd9 //Environment call from sS- 
5'hlF;//Otherwise a reserved value 


assign cmt cause - excp taken ena ? excp cause : irq cause; 


// 对 于 长 指令 ， 使 用 其 自身 的 指令 PC 值 。 

// 对 于 普通 ALU 指令 ， 使 用 当前 交付 接口 〈 来 自 于 ALU 接口 ) 的 指令 PC 更 新 mepc 寄存 器 

assign cmt epc = longp excp i valid ? longp excp i pc : alu excp i pc; 

e203 exu excep 模块 中 的 内 容 非 常 琐碎 繁杂 ， 必 须 了 解 RISC-V 架构 的 很 多 细节 才能 理 
解 。 以 上 仅 对 关键 的 代码 片段 予以 讲解 分 析 ， 完 整 源 代码 请 读者 到 GitHub 上 的 
e200 opensource 项 目 中 自行 阅读 。 


4. mret 指令 的 处 理 
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mret 指令 会 触发 处 理 右 退出 异常 模式 。 该 指令 在 蜂鸟 E200 处 理 器 中 被 当 作 一 种 跳 转 指令 来 
执行 ， 其 硬件 实现 与 第 9 章 中 描述 的 分 支 指令 解析 一 样 在 e203_exu_branchslv 模块 中 处 理 。 








13.5.8 


e200 opensource 


|----rtl // 存放 RTL 的 目录 
|----e203 // E203 核 和 socCc 的 RTL 目录 
|----general // 存放 一 些 公 用 的 通用 RTL 代码 
|----core // 存放 e203 Core 的 RTL 代码 
|----e203 exu commit.v // 交 付 模块 顶层 
|----e203 exu branchslv.v // 交 付 中 处 理 


// mret 指令 的 子 模块 
相关 源 代码 片段 如 下 所 示 。 


// e200 exu branchslv.v 源 代码 片段 


// 生成 冲刷 请 求 ， 包 括 了 mret 指令 。 


wire brchmis need flush = ( 
(cmt i bjp & (cmt i bjp prat ^ emt i bjp rslv)) 
/ / If it is a Fencel instruction, it is always jump 
| cmt i fencei 
/ / If it is a RET instruction, it is always jump 
| cmt i mret 
/ / If it is a DRET instruction, it is always jump 
| cmt i dret 


)7 


// 如 果 是 mret 指令 造成 冲刷 ， 则 会 使 用 mepe 寄存 器 中 的 值 作为 重新 取 指 令 的 PC (Flush PC) . 


assign brchmis flush pc = 
cmt. i dret 2 csr dpo r : 
//cmt i mret ? csr epo r : 
csr epc r ; 


s.s... 


ta 


rp ERU RECS HIKEA AEE RME KER R EERI — 823 » IF 
T RISC-V 架构 对 于 中 断 和 异常 机 制 的 简单 定义 , 蜂鸟 E200 对 其 进行 硬件 实现 的 代价 很 小 。 
即便 如 此 ， 异 常 和 中 断 相 关 的 源 代 码 相 比 其 他 模块 而 言 ， 仍 然 非 常 细 琐 老公 ， 本 书 仅 对 其 设 
计 要 点 以 及 代码 片段 进行 简要 地 讲解 分 析 ， 请 感 兴趣 的 读者 到 GitHub 上 的 e200 opensource 


项 目 中 自行 阅读 完整 源 代码 。 
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对 于 一 款 处 理 器 而 言 ， 人们 在 研究 其 微 架构 时 往往 关注 的 是 聚光灯 下 的 某 些 特 性 ， 璧 如 
流水 线 的 级 数 、 运 算 单元 的 能 力 等 ， 而 对 于 角落 里 的 另外 一 位 “小 朋友 ”往往 未 加 重视 ， 这 
位 “小 朋友 ” 便 是 调试 (Debug) 单元 。 

不 同 于 普通 的 ASIC 心 片 ， 处 理 器 运行 的 是 软件 程序 。 试 想 一 下 ， 如 果 一 款 处 理 器 不 具 
备 调试 能 力 ， 那 么 一 旦 程序 运行 出 现 问 题 ， 开 发 人 员 便 束手无策 ， 处 理 器 也 就 秒 变 为 “ 砖 ” 
了 。 因 此 ， 处 理 器 对 于 运行 于 其 上 的 软件 程序 提供 调试 能 力 是 至 关 重 要 的 。 

调试 单元 在 处 理 器 设计 中 往往 是 幕后 英雄 ， 大 多 数 人 对 其 软 硬 件 实现 机 制 也 是 不 明 就 
里 ， 或 者 根本 未 曾 关 注 。 但 是 ， 最 不 起 眼 的 ， 往 往 是 最 难 的 ， 调 试 机 制 是 个 非常 复杂 的 软 硬 
件 协作 机 制 ， 软 硬件 的 实现 难度 很 大 。 

目前 绝 大 多 数 开 源 处 理 器 仅 提 供 处 理 器 核 的 实现 ， 并 没有 提供 调试 方案 的 实现 ， 很 少 有 
开源 处 理 器 能 够 支持 完整 的 GDB 交互 调试 功能 。 蜂 鸟 E200 不 仅 开源 了 处 理 器 核 的 实现 、 
SoC 实现 、FPGA 平台 和 软件 示例 ， 还 实现 和 开源 了 完整 的 调试 方案 ， 具 备 完整 的 GDB 交 
互 调 试 功能 。 可 以 说 是 从 硬件 到 软件 ， 从 模块 到 SoC， 从 运行 到 调试 的 一 套 完整 解决 方案 。 

本 章 将 带 着 读者 一 探 RISC-V 调试 机 制 的 究竟 ， 同 时 结合 蜂 乌 E200 处 理 器 实例 来 简 述 
调试 机 制 的 硬件 实现 。 值 得 再 次 强调 的 是 , 调试 机 制 和 软 硬 件 实现 是 一 个 非常 完整 且 复 杂 的 
议题 ， 若 要 将 其 彻底 阐述 清楚 ， 几 乎 可 以 单独 成 书 ， 本 书本 章 只 能 以 极其 有 限 的 篇 幅 揭 开 其 
冰山 一 角 。 有 兴趣 的 读者 可 以 根据 本 章 推荐 的 文档 自行 仔细 研究 ， 也 可 仔细 研究 蜂鸟 E200 
调试 单元 相关 的 Verilog 源 代码 。 | 


14.1 Buts 


对 于 处 理 器 的 调试 功能 而 言 ， 弟 用 的 两 种 是 “交互 式 调试 ”和 “追踪 调试 "。 本 节 将 对 
此 两 种 调试 的 功能 及 原理 加 以 简 述 。 


14.1.1 ”交互 调试 概述 


交互 调试 (Interactive Debug) 功能 是 处 理 器 提供 的 最 常见 的 一 种 调试 功能 ， 从 最 低 端 
的 处 理 融 到 最 高 端的 处 理 器 ， 交 互 调试 几乎 是 必 备 的 功能 。 交 互 调试 是 指 调试 器 软件 〈( 辟 如 
常见 的 调试 软件 GDB) 能 够 直接 对 处 理 器 取得 控制 权 ， 进 而 对 其 以 一 种 交互 的 方式 进行 调 
试 ， 辟 如 通过 调试 软件 对 处 理 嚣 。 

e 下 载 或 者 局 动 程序 。 

。 通过 设 定 各 种 特定 条 件 来 停止 程序 。 

。 查看 处 理 器 的 运行 状态 。 包 括 通用 寄存 器 的 值 、 存 储 器 地 址 的 值 等 。 
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得 看 程序 的 状态 。 包 括 变量 的 值 、 函 数 的 状态 等 。 
改变 处 理 器 的 运行 状态 。 包 括 通用 寄存 器 的 值 、 存 储 右 地 址 的 值 等 。 
改变 程序 的 状态 。 包 括 变量 的 值 、 函 数 的 状态 等 。 


有 关 GDB 的 简介 和 如 何 运行 GDB 软件 进行 调试 ， 请 参见 第 19.4 节 。 

对 于 髓 入 式 平台 而 言 ， 调 试 器 软件 一 般 是 运行 于 主机 PC 端的 一 球 软 件 ， 而 被 调试 的 处 
理 融 往往 是 在 能 入 式 开 发 板 之 上 ， 这 是 交叉 编译 和 远程 调试 的 一 种 典型 情形 。 调 试 邦 软件 为 
何 能 够 取得 处 理 器 的 控制 权 ， 从 而 对 其 进行 调试 呢 ? 可 想 而 知 ， 需 要 硬件 的 支持 才能 做 到 。 
在 处 理 器 核 的 硬件 中 ， 往 往 需要 一 个 硬件 调试 模块 。 该 调试 模块 通过 物理 介质 《譬如 JTAG 
接口 ) 与 主机 端的 调试 软件 进行 通信 接受 其 控制 ， 然 后 调试 模块 对 处 理 器 核 进 行 控制 。 

为 了 帮助 读者 进一步 理解 ， 以 交互 式 调试 中 常见 的 一 种 调试 情形 为 例 来 阐述 此 过 程 。 假 
设 调试 软件 GDB 试图 对 程序 中 的 某 个 PC 地 址 设置 一 个 断 点 ， 然 后 希望 程序 运行 到 此 处 之 
后 停 下 来 ， 之 后 GDB 能 够 读 取 处 理 器 当时 的 某 个 寄存 器 的 值 。 调 试 软件 和 调试 模块 便 会 进 
行 如 下 协同 操作 。 


开发 人 员 通 过 运行 于 主机 端的 GOB 软件 在 其 软件 界面 上 设置 某 行程 序 的 断 点 ,GDB 
软件 通过 底层 驱动 JTAG 接口 访问 远程 处 理 器 的 调试 模块 ， 对 其 下 达 命 令 ， 告 诉 其 
希望 于 某 PC 设置 一 个 断 点 。 

调试 模块 得 令 即 开始 对 处 理 器 核 进行 控 制 ， 首 先 它 会 请 求 处 理 器 核 停止 ， 然 后 修改 
存储 器 中 那个 PC 地 址 的 指令 , 将 其 蔡 换 成 一 个 Breakpoint 指令 ; 最 后 将 处 理 器 核 放 
行 ， 让 处 理 器 恢复 执行 。 

当 处 理 器 恢复 执行 后 ， 执 行 到 那个 PC 地 址 时 ， 由 于 碰 到 了 Breakpoint 指令 ， 会 产生 异 
各 进入 调试 模式 的 异常 服务 程序 。 调 试 模块 探测 到 处 理 器 核 进 入 了 调试 模式 的 异常 服务 
程序 ， 并 将 此 信息 显示 出 来 。 主 机 端的 GDB 软件 一 直 在 监测 调试 模块 的 状态 从 而 得 知 
此 信息 ， 便 得 知 处 理 器 核 已 经 运行 到 断 点 处 停止 了 下 来 ， 并 显示 在 GDB 软件 界面 上 。 
开发 人 员 通 过 运行 于 主机 端的 GDB 软件 在 其 软件 界面 上 设置 读 取 某 个 寄存 器 的 值 ， 
GDB 软件 通过 底层 驱动 JTAG 接口 访问 远程 处 理 器 的 调试 模块 ， 对 其 下 达 命 令 ， 告 
诉 其 希望 读 取 某 个 寄存 器 的 值 。 

调试 模块 得 令 即 开始 对 处 理 器 核 进行 控制 ， 从 处 理 器 核 中 将 那个 寄存 器 的 值 读 取出 来 ， 
并 将 此 信息 显示 出 来 。 主 机 端的 GDB 软件 一 直 在 监测 调试 模块 的 状态 ， 从 而 得 知 此 信 
A, HEt JTAG 接口 将 读 取 的 值 返 回 到 主机 PC 端 ， 并 显示 在 GDB 软件 界面 上 。 


注意 : 以 上 采用 极为 通俗 的 语言 来 描述 此 过 程 ， 以 帮助 读者 理解 ， 但 难免 失 之 严谨 ， 请 
以 具体 的 调试 机 制 文 档 为 准 。 

从 上 述 过 程 中 可 以 看 出 ， 调 试 机 制 是 一 套 复杂 的 软 硬 件 协同 工作 机 制 ， 需 要 调试 软件 和 
硬件 调试 模块 的 精密 配合 。 
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同时 ， 也 可 以 看 出 交互 式 调 试 对 于 处 理 器 的 运行 往往 是 具有 打扰 性 CIntrusive) 的 。 调 
试 单 元 会 在 后 台 偷 偷 地 控制 住处 理 器 核 ， 时 而 让 其 停止 ， 时 而 让 其 运行 。 由 于 交互 式 调试 对 
处 理 右 运行 的 程序 具有 影响 ， 甚 至 会 改变 其 行为 ， 尤 其 是 对 时 间 先 后 性 有 依赖 的 程序 ， 有 时 
候 交 互 式 调 试 并 不 能 完整 地 重 现 某 些 程序 的 Bug。 最 常见 的 情形 便 是 处 理 器 在 全 速 运行 某 个 
程序 时 会 出 现 Bug， 当 开发 人 员 使 用 调试 软件 对 其 进行 交互 式 调试 时 ，Bug 又 不 见 了 。 如 此 
反复 ， 好 不 折 效 人 也 。 其 主要 原因 往往 就 是 交互 式 调 试 过 程 的 打扰 性 (Intrusive)， 使 得 程序 
在 调试 模式 和 全 速 运行 下 的 结果 出 现 了 差异 。 


14.1.2 跟 路 调试 概述 


上 一 节 中 论述 了 交互 式 调试 的 一 个 缺点 是 对 处 理 器 的 运行 具有 打扰 性 , 为 了 克服 此 种 缺 
陷 ， 便 引入 了 跟 踊 调 试 (Trace Debug) 机 制 。 

跟 踊 调试 ， 即 调试 器 只 跟踪 记录 处 理 器 核 执 行 过 的 所 有 程序 指令 ， 而 不 会 打 断 干扰 处 理 
侨 的 执行 过 程 。 跟 踩 调试 同样 需要 硬件 的 支持 才能 做 到 ， 相 比 交 互 式 调试 的 实现 难度 更 大 。 
由 于 处 理 器 的 运行 速度 非常 快 ， 每 秒 钟 能 执行 上 百 万 条 指令 ， 如 果 长 时 间 运 行 某 个 程序 ， 其 
产生 的 信息 量 十 分 巨大 。 跟 踪 调 试 器 的 硬件 单元 需要 跟踪 记录 下 所 有 的 指令 ， 对 于 处 理 速 度 
的 要 求 ， 数 据 的 压缩 、 传 输 和 存储 等 都 是 极 大 挑战 。 跟 踪 调 试 器 的 硬件 实现 会 涉及 相 比 交互 
调试 而 言 更 加 复杂 的 技术 ， 同 时 硬件 开销 也 更 大 ， 因 此 跟踪 调试 器 往往 只 在 比较 高 端的 处 理 
as PAEH o 


14.2 IBiiem ES AERE 


由 于 处 理 器 可 以 有 不 同 的 调试 (Debug) 实现 机 制 ， 且 与 微 架构 的 实现 有 关 ， 璧 如 有 的 调试 
机 制 奶 求 以 较 小 的 面积 实现 调试 的 功能 ， 有 的 调试 机 制 追求 以 较 快 的 调试 反应 速度 而 付出 较 大 
的 面积 开销 。 因 此 RISC-V 基金 会 目前 还 没有 发 布 标准 的 RISC-V 调试 架构 文档 (RISC-V Debug 
Specification)， 但 是 有 大 干 公 开 的 候选 文档 (Proposal Specifications) 在 审核 之 中 。 

目前 公开 的 候选 调试 架构 文档 〈(RISC-V Debug Proposal Specifications〉 中 ， 比 较 有 影 啊 
力 当 属 SiFive 公司 的 方案 ， 如 图 14-1 所 示 。 并 且 SiFive 公司 基于 此 方案 实现 了 开源 的 Freedom 
E310 SoC, 基于 此 SoC 实际 流 片 量 产 的 芯片 和 HiFivel 开发 板 被 广泛 应 用 ( 仪 支 持 交 互 式 调 
试 )。 因 此 SiFive 公司 的 调试 架构 文档 具有 相当 高 的 可 信和 度 。 

读者 可 以 从 SiFive 公司 网 站 下 载 其 文档 。 其 网 站 上 有 0.11 和 0.13 两 个 版 本 ， 开 源 的 
Freedom E310 SoC 和 HiFivel 开发 板 使 用 的 是 0.11 版 本 (riscev-debug-spec-0.11nov12.pdf)， 
本 章 将 其 简称 为 “0.11 版 本 ”。 
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图 14-1 SiFive 公司 的 RISC-V 系统 调试 方案 图 


14.2.1 调试 器 软件 的 实现 


如 第 14.1 节 中 所 述 ， 完 整 的 调试 机 制 需 要 调试 器 软件 (Debugger, $i GDB) 和 硬件 
精密 协作 。 在 第 14.1 节 中 曾 列 举 了 软 硬 件 如 何 精 密 配 合 ， 达 到 同 程 序 中 设置 断 点 和 读 取 寄 
存 右 的 通俗 示例 。 感 兴趣 的 读者 大 要 试图 严谨 地 理解 调 斌 机制， 并 结合 调试 器 软件 和 硬件 调 
WIRI (Debug Module) 通过 软 人 硬件 精密 协作 的 方式 实现 所 有 的 调试 功能 ， 可 以 参见 “0.11 
版 本 ”原文 。 


14.2.2 ”调试 模式 


*0.11 版 本 ”中 定义 了 一 种 特殊 的 处 理 器 模式 一 一 调试 模式 (‘Debug Mode)， 同 时 定义 
了 硅 干 种 触发 条 件 ， 处 理 器 核 一 旦 过 到 此 类 触发 条 件 便 会 进入 调试 模式 。 可 以 将 进入 调试 模 
式 当 成 一 种 特殊 的 异常 ， 进 入 调试 模式 时 ， 处 理 器 核 会 进行 如 下 更 新 。 
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。 处 理 嚣 PC 跳 转 到 0x800 地 址 。 

e 将 处 理 器 正在 执行 的 指令 PC 保存 到 CSR 寄存 器 dpe 中 。 

。 将 引发 进入 调试 模式 的 触发 原因 保存 到 CSR 寄存 器 dcsr 中 。 
关于 调试 模式 的 详细 信息 ， 请 参见 “0.11 版 本 ”原文 。 


14.2.3 ”调试 指令 


RISC-V 标准 指令 集中 定义 了 一 条 特殊 的 断 点 指令 ebreak， 此 指令 主要 用 于 调试 软件 设 
置 断 点 。 当 处 理 器 核 执行 到 这 条 指令 时 会 跳 转 到 异常 模式 或 者 调试 模式 。 
“0.11 版 本 ”中 还 定义 了 一 条 特殊 的 指令 dret〈 注 意 和 mret 区 分 )。dret 指令 执行 后 ， 处 
理 器 核 会 进行 如 下 更 新 。 
。 处 理 器 PC 跳 转 到 保存 在 dpe 中 的 值 ,这 意味 看 处 理 器 退回 到 之 前 进入 调试 模式 之 前 
的 程序 执行 点 。 
。 将 dcsr 寄存 器 中 的 域 清除 掉 ， 指 示 处 理 器 退出 了 调试 模式 。 


14.2.4 调试 机 制 CSR 


“0.11 版 本 ”中 定义 了 几 个 只 能 在 调试 模式 下 访问 到 的 CSR 寄存 器 。 请 参见 “0.11 版 本 ” 
原文 了 解 其 详情 。 


14.2.5 ”调试 中 断 


“0.11 版 本 ”中 定义 了 一 个 特殊 的 处 理 器 中 断 类 型 一 一 调试 中 断 (Debug Interrupt)。 当 
处 理 器 核 收 到 此 中 断 之 后 , 将 进入 调试 模式 。 调 试 中 断 是 最 主要 的 进入 调试 模式 的 触发 条 件 ， 
挑 调试 器 软件 的 众多 功能 均 依 赖 于 此 中 断 。 

关于 调试 中 断 的 详细 信息 ， 请 参见 “0.11 版 本 ”原文 。 


14.3 蜂 乌 E200 调试 机 制 的 硬件 实现 


蜂鸟 E200 处 理 器 核 调 试 机 制 的 硬件 实现 严格 依据 “0.11 版 本 ”定义 的 方案 。 与 开源 的 
HiFivel 芯片 一 样 ， 蜂 乌 E200 处 理 器 目前 仅 支 持 交 互 式 调 试 ， 疝 不 文 持 追 踪 调 试 。 


14.3.1 B E200 交互 式 调 试 概 述 
蜂鸟 E200 处 理 器 核 交 互 式 调试 机 制 的 硬件 实现 要 点 如 下 。 





252 | 最 不 起 眼 的 ， 其 实 是 最 难 的 一 一 调试 机 制 


e 如 图 14-1 所 示 ， 调 试 主机 (Debug Host) 为 主机 PC 端的 调试 平台 ， 由 于 内 入 式 系 
统 往往 以 交叉 编译 远程 调试 的 方式 工作 ， 因 此 软件 的 开发 编译 在 主机 PC MERN, 
并 且 在 主机 PC 端 运行 调试 软件 。 璧 如 常用 的 GDB 调试 软件 , 对 和 能 入 式 硬 件 平台 (和 警 
如 基于 RISC-V 的 MCU) 进行 调试 。 有 关 如 何在 主机 PC 端 进行 交叉 编译 和 如 何 运 
tT GDB 软件 进行 远程 调试 ， 请 参见 第 19.4 n. 

e 主机 PC 端的 GDB 软件 需要 与 其 Gdbserver 通信 ，Gdbserver 可 以 用 开源 软件 
OpenOCD 7524. OpenOCD 的 源 代码 中 包含 了 各 种 常见 硬件 芯片 的 驱动 ， 璧 如 FTDI 
公司 的 USB 转 JTAG 芯片 。 因 此 此 芯片 的 USB 接口 可 以 使 用 USB 连接 线 与 主机 PC 
连接 ， 此 芯片 的 JTAG 接口 则 可 以 与 RISC-V 处 理 器 的 SoC 硬件 平台 相连 。 其 原理 
图 和 实物 对 照 如 图 14-2 所 示 。 有 关 OpenOCD 软件 的 介绍 和 使 用 请 参见 第 19.4 节 。 
有 关 实 物 图 中 使 用 到 的 具体 器 材 型 号 和 手工 制作 过 程 请 参见 第 18.3.3 Ti. 

e 如 图 14-2 所 示 , 在 RISC-V 的 SoC 中 , JTAG 接口 由 DTM 模块 转换 成 为 内 部 的 调试 
总 线 ， 通 过 该 总 线 访问 调试 模块 。DTM 和 调试 模块 在 后 续 章 节 中 另行 论述 。 
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14-2 ”蜂鸟 E200 处 理 器 的 Debug 机 制 原理 与 实物 对 照 图 
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14.3.2 DTM 模块 


如 图 14-1 所 示 ，DTM 全 称 Debug Transport Module， 在 蜂鸟 E200 处 理 器 中 DTM 主要 
是 将 JTAG 标准 接口 转换 成 为 内 部 的 调试 总 线 (Debug Bus)， 其 硬件 实现 要 点 如 下 。 
e DTM 源 代 码 在 e200 opensource 目录 的 结构 如 下 。 关 于 GitHub 网 站 上 
e200 opensource 开源 项 目的 完整 代码 层次 结构 详解 ， 请 参见 第 17.1 节 。 
e200 opensource 
|[*---rt1 // 存放 RTL 的 目录 
|----e203 // E203 核 和 Soc 的 RTL 目录 
| | ----debug // 存放 调试 相关 模块 的 RTL 代码 
| |----sirv jtag dtm.v // DTM 模块 
。 该 模块 主要 是 使 用 状态 机 对 JTAG 协议 进行 解析 转换 成 调试 总 线 。 且 由 于 DTM 模块 
处 于 JTAG 时 钟 域 ， 与 调试 总 线 要 访问 的 调试 模块 不 属于 同一 个 时 钟 域 ， 因 此 需要 
被 同步 。 具 体 代码 请 读者 到 GitHub 的 e200 opensource 项 目 中 自行 阅读 。 


14.3.3 ”硬件 调试 模块 


如 图 14-1 所 示 ， 硬 件 调试 模块 在 整个 调试 机 制 担 任 了 最 重要 的 硬件 角色 ， 其 硬件 实现 
BRAWF. 
。 调试 模块 相关 源 代码 在 e200 opensource 目录 的 结构 如 下 。 关 于 GitHub 网 站 上 
e200_opensource 开源 项 目的 完整 代码 层次 结构 详解 ， 请 参见 第 17.1 节 。 
| e200 opensource 
| |--——-£tl // 存放 RTL 的 目录 
|----e203 // E203 核 和 Soc 的 RTL 目录 
| | ----debug // 存放 Debug 相关 模块 的 RTL 代码 
|----sirv debug module.v // 调试 模块 模块 顶层 
|----sirv debug ram.v // Debug-RAM 模块 
|----sirv debug rom.v // Debug-ROM 模块 
。 调试 模块 中 实现 了 “0.11 版 本 ”中 定义 的 若干 寄存 器 、Debug-ROM 和 Debug-RAM. 
这 些 资 源 既 可 以 被 调试 总 线 访问 到 ， 也 可 以 被 系统 存储 总 线 访问 到 。 有 关 此 类 寄存 
器 、Debug-ROM、Debug-RAM 的 细节 和 在 不 同 总 线 上 映射 的 地 址 区 间 请 参见 “0.11 
版 本 ”原文 。 调 试 模块 的 源 代码 片段 如 下 所 示 。 


| // sirv debug module.v 源 代码 片段 


// 系统 存储 总 线 ICB 接口 
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input i icb cmd valid, 
output i icb cmd ready, 
input  [12-1:0] i icb cmd addr, 

input i icb cmd read, 

input  [32-1:0] i icb cmd wdata, 
output i icb rsp valid, 
input i icb rsp ready, 
output [32-1:0] i icb rsp rdata, 


// 解析 来 自 DTM 模块 的 调试 总 线 


assign dtm req bits addr i dtm req bits[40:36]; 

assign dtm req bits data i dtm req bits[35:2]; 

assign dtm req bits op  - i dtm req bits[1:0]; 

assign i dtm resp bits - (dtm resp bits data, dtm resp bits resp); 


// The OP field 
/ / 0: Ignore data. (nop) 

/ / 1: Read from address. (read) 

/ / 2: Read from address. Then write data to address. (write) 
[4 3: Reserved. 

wire dtm req rd 


(dtm req bits op -- 2'd1); 


wire dtm req wr - (dtm req bits op -- 2'd2); 

wire dtm req sel dbgram  - (dtm req bits addr[4:3] == 2'b0) & (-(dtm req 
bits addr[2:0] == 3'b111));//0x00-0x06 

wire dtm req sel dmcontrl = (dtm req bits addr == 5'h10); 

wire dtm req sel dminfo = (dtm req bits addr -- 5'hll); 

wire dtm req sel haltstat = (dtm req bits addr == 5'hl1C); 


// 实现 ICB 总 线 读 取 Debug-ROM、Debug-RAM 和 寄存 器 


assign i icb rsp rdata = 
((32(icb sel cleardebint)]) & ((32-HART ID W(1'b0)), cleardebint r)) 
| ((32[icb sel sethaltnot )]) & ((32-HART ID W[1'b0])), sethaltnot r]) 
| ((32(icb sel dbgrom }} & rom dout) 
| ({32{icb sel dbgram }} & ram dout); 


// 实现 调试 总 线 读 取 Debug-ROM. Debug-RAM 和 寄存 器 
assign dtm resp bits data - 
((34[(dtm req sel dbgram }} & [dmcontrol r[33:32],ram dout]) 
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| ({34{dtm req sel dmcontrl)) & dmcontrol r) 
| ((34(dtm req sel dminfo }} & dminfo r) 
| ([34(dtm req sel haltstat)) & {{34-HART ID W[1'b0)],dm haltnot r]); 


。 Debug-ROM 模块 中 包含 了 处 理 器 进入 调试 模式 下 需要 执行 的 异常 处 理 程序 。 该 程序 
是 “0.11 版 本 ”中 定义 的 固定 程序 ， 程 序 内 容 片 段 如 图 14-3 所 示 ， 完 整 程序 请 参见 
“0.11 版 本 ”完整 文档 。 此 段 程 序 只 读 且 不 用 更 改 ， 将 其 编译 汇编 成 为 最 终 的 二 进 制 
代码 之 后 ， 可 以 用 一 段 ROM 实现 。 相 关 源 代码 片段 如 下 所 示 。 


// sirv debug rom.v 源 代码 片段 


wire [31 


assign 


// 注意 ， 代 码 中 使 用 常数 赋值 实现 ， 此 模块 如 果 直 接 使 用 综合 工具 综 


Ox6f, 
Ox6f, 
0x83, 
0x23, 
0x63, 
0x73, 
0x13, 
0x67, 
0x73, 
0xe3, 


0x00, 
0x00, 
0x24, 
0x20, 
0xla, 
0x10, 
0x04, 
0x00, 
0x60, 
0xO0c, 


rom dout - 


0x03, 
0x00, 
0x41, 
0x10, 
0x02, 
0x7b, 
Oxf4, 
0x40, 
0x7b, 
0x04, Oxfe, Ox6f, Oxf0, Oxlf, Oxfe).map( .toByte) 


def xlen320nlyRomContents : 
OxcO, 
0x80, 
0x80, 
0x80, 
0x04, 
0x24, 
0x04, 
0x00, 
0x04, 


Ox6f, 
0x13, 
0x23, 
0x73, 
0x73, 
0x73, 
0x63, 
0x73, 
0x73, 


These ROM contents support only RV32 


Array[Byte] 


0x00, 
0x04, 
0x2c, 
0x24, 
0x24, 
0x24, 
0x16, 
0x24, 
0x24, 


0xcO, 
0x00, 
0x80, 
0x00, 
0x20, 
0x00, 
0x04, 
0x40, 
0x00, 


debug rom[rom addr]; 


= Array( 


0x00, 
0x00, 
0x40, 
0x7b, 
0x7b, 
0x7b, 
0x00, 
Oxfl, 
0x7b, 


Pa 
E 


0x13, 
OxOf, 
0x73, 
0x13, 
0x73, 
Üxi3, 
0x23, 
0x23, 
0x13, 


:0] debug rom [0:28]; // 29 words in total 


0x04, 
0x00, 
0x24, 
0x74, 
0x00, 
0x74, 
0x2c, 
0x26, 
0x74, 


OxfO0, 
Oxf0, 
0x40, 
0x84, 
0x20, 
0x04, 
0x90, 
0x80, 
0x04, 


Oxff, 
OxOf, 
Oxf1, 
0x00, 
0x7b, 
0xlc, 
0x40, 
0x10, 
0x02, 


将 会 被 优化 为 门 数 有 限 的 组 合 逻 辑 。 


// 0x6f, 0x00, OxcO, 0x03, Ox6f, 0x00, OxcO, 0x00, Ox13, 0x04; OxfO0, Oxff, 
assign debug rom[ 0][7 0] 8'h6f; 
assign debug rom[ 0][15: 8] = 8'h00; 
assign debug rom[ 0][23:16] 8'hc0; 
assign debug rom[ 0][31:24] - 8'h03; 
assign debug rom[ 1][7 0] = 8'h6f; 
assign debug rom[ 1][15: 8] 8'h00; 
assign debug rom[ 1][23:16] 8'hc0; 
assign debug rom[ 1][31:24] = 8'h00; 
assign debug rom[ 2][7 0] » 8'h13; 
assign debug rom[ 2][15: 8] = 8'h04; 
assign debug rom[ 2][23:16] 0'hf0; 
assign debug rom[ 2][31:24] = 8'hff; 
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ianclude "riscu/encoding.h" 


#define DEBUG RAM 02400 
#define DEBUG RAM SIZE &4 
#define CLEARDEBINT 02100 
define SETHALTNOT 0zi0c 
.global entry 
.global resume 


.global exception 


# Automatically called when Debug Mode is first entered. 


entry: j .entry 
# Should be called by Debug RAM code that has finished erzecution and 


# wants io return to Debug Mode. 


resume: 
j .resume 

exception: 
# Set the last word of Debug RAM to all ones, to indicate that we hit 


# an exception. 


li s0, 

j _resume2 
„resume; 

li s0, 0 
.resume2: 

fence 


图 14-3 Debug-ROM 中 的 程序 片段 


。 Debug-RAM 主要 在 运行 Debug-ROM 中 国定 异常 处 理 程序 时 作为 数据 段 使 用 ， 用 于 
存放 一 些 临 时 数据 和 中 间 数 据 。 对 于 32 位 的 RISC-V 架构 处 理 器 而 言 ， 需 要 至 少 28 
个 字 节 的 数据 空间 ， 相 关 源 代码 片段 如 下 所 示 。 
// sirv debug ram.v 源 代 码 片 段 


wire [31:0] debug ram r [0:6]; 
wire [6:0] ram wen; 


// 注意 ， 代 码 中 使 用 普通 的 寄存 器 实现 了 7 个 32 比特 宽 的 寄存 器 ， 而 并 非 任 何 实际 的 RAM. 
assign ram dout = debug ram r[ram addr]; 


genvar i; 
generate //| 


for (i20; i«7; i-i*1) begin:debug ram gen//( 


assign ram wen[i] - ram cs & (-ram rd) & (ram addr -- i) ; 


sirv gnrl dfflr $(32) ram dfflr (ram wen[i], ram wdat, debug ra 


m r[i], clk, rst n); 


end//) 
endgenerate/ /) 
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以 上 仅 对 最 关键 的 代码 片段 予以 讲解 分 析 ， 完 整 源 代 码 请 读者 到 GitHub 的 e200_ 
opensource Jii H F B fr AiE. 


14.3.4 调试 中 断 处 理 


与 第 13 章 中 描述 的 普通 中 断 一 样 ， 调 试 中 断 作为 一 根 输入 信号 输送 给 处 理 器 的 交付 
(Commit) 模块 ， 如 图 13-10 中 圆圈 处 所 示 。 交 付 模 块 的 调试 中 断 处 理 部 分 的 要 点 如 下 。 

。 交付 模块 接受 来 自 调试 模块 的 一 根 中 断 信号 的 请 求 ， 由 于 中 断 是 一 种 异步 异常 ， 这 
种 中 断 异常 的 “发 生 指 令 PC” 将 会 由 当前 正在 交付 的 指令 承担 ，dpc 寄存 器 中 更 新 
的 PC 值 即 为 当前 正在 交付 指令 (来 自 于 ALU 接口 )。 

。 调试 中 断 一 旦 被 接受 ， 便 会 冲刷 (Flush》〉 流 水 线 ， 将 后 续 的 指令 取消 掉 ， 并 向 FU 
模块 发 送 冲 刷 请 求 〈Flush Request) 和 重新 取 指 的 PC (Flush PC)， 值 为 0x800， 用 
以 重新 从 新 的 PC 地 址 开始 取 指 令 。 

。 交付 模块 中 的 调试 中 断 处 理 相 关 源 代码 片段 如 下 所 示 。 

// e203 exu excp.v 源 代码 片段 


// 生成 流水 线 冲 刷 请 求 ， 包 括 了 调试 中 断 造成 的 异常 。 


assign excpirq flush req = longp excp flush req | dbg entry flush req | ir 
q flush req | alu excp flush reg; 


// 生成 重新 取 指 令 的 Pc (Flush PC) ， 如 果 是 调试 中 断 造 成 的 流水 线 冲 刷 ， 则 会 使 用 0x800 作为 新 
的 取 指 令 BC。 

assign excpirq flush pc = dbg entry flush req ? 'E200 PC SIZE'h800 : (all e 
xcp flush req & dbg mode) ? 'E200 PC SIZE'h808 : csr mtvec r; 


// 根据 进入 调试 模式 的 触发 条 件 ， 更 新 CSR 宥 存 器 dcsr 中 的 cause 域 。 


| wire [2:0] set dcause nxt - 
dbg trig req ? 3'd2 : 
dbg ebrk req ? 3'dl : 
dbg. irq req n? 3'd3 z: 
dbg step req ? 3'd4 : 
E 7T 3'd5 : 
'd0; 


dbg halt req 

3 

。 6203 exu excp RRR HIAR ERRER 20 1 RE RISC-V ARTARSR 4 ATEA Be 
理解 。 以 上 仅 对 关键 的 代码 片段 予以 讲解 分 析 ， 完 整 源 代码 请 读者 到 GitHub 的 
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e200 opensource 项 目 中 上 自行 阅读 。 


14.3.5 ”调试 机 制 CSR 寄存 器 的 实现 


如 第 14.2.4 节 中 所 述 ,“0.11 WE” PRIE TEF CSR 寄存 器 用 于 调试 机 制 。 相 关 
源 代码 在 e200_opensource 目录 的 结构 如 下 。 


e200 opensource 
|----rtl // 存放 RTL 的 目录 
| ----e203 // E203 核 和 Soc 的 RTL 目录 
| ----debug // 存放 调试 相关 模块 的 RTL 代码 
|----sirv debug csr.v // 调试 机 制 的 CSR 寄存 器 实现 模块 


在 sirv debug csr.v 中 实现 CSR 寄存 器 基本 上 严格 按照 “0.11 版 本 ”中 的 定义 予以 实现 ， 
请 读者 到 GitHub 的 e200 opensource 项 目 中 自行 阅读 其 源 代码 。 


14.3.6 ”调试 机 制 指令 的 实现 


如 第 14.2.3 节 中 所 述 ，RISC-V 架构 文档 和 “0.11 版 本 ”中 分 别 定义 了 ebreak 和 dret 这 


两 条 用 于 调试 机 制 的 指令 。 
。 ebreak 指令 会 触发 处 理 器 进入 异常 模式 或 者 调试 模式 , 其 硬件 实现 与 第 13 章 中 描述 
的 其 他 异常 一 样 。 交 付 模 块 中 的 ebreak 相关 源 代码 片段 如 下 所 示 。 


// e203 exu excp.v 源 代码 片段 


// ebreak 指令 由 ALU 执行 ，ALU 输出 此 指令 的 交付 请 求 ， 交 付 模 块根 据 当 前 的 dcsr 寡 存 器 中 
的 配置 决定 是 跳 入 调试 模式 或 是 异常 模式 。 


// The ebreak instruction will generated regular exception when the ebreakm 
/ / bit of DCSR reg is not set 
wire alu excp i ebreak4excp = 

alu excp i ebreak 

& ((-dbg ebreakm r) | dbg mode); 
// The ebreak instruction will enter into the debug-mode when the ebreakm 
/ / bit of DCSR reg is set 
wire alu excp i ebreak4dbg - alu excp i ebreak 

& (-alu need flush) 

& dbg ebreakm r 

& (-dbg mode);//Not in debug mode 


LIII 


。 dret 指令 会 触发 处 理 器 退出 调试 模式 。 该 指令 在 蜂鸟 E200 处 理 器 中 被 当 作 一 种 跳 转 
指令 来 执行 ,其 硬件 实现 与 第 9 章 中 描述 的 分 支 指 令 解 析 一 样 ,在 e200_exu_branchslv 
模块 中 处 理 ， 相 关 源 代码 片段 如 下 所 示 。 
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// e200 exu branchslv.v 源 代码 片段 


// 生成 流水 线 冲 刷 请 求 ， 包 括 了 dret 指令 。 


wire brchmis need flush = ( 
(cmt i bjp & (cmt i bjp prdt ^ cmt i bjp rslv)) 
/ / If it is a Fencel instruction, it is always jump 
| cmt i fencei 
/ / If it is a RET instruction, it is always jump 
| cmt i mret 
/ / If it is a DRET instruction, it is always jump 
| cmt i dret 
) ; 


// 如 果 是 dret 指令 造成 的 冲刷 ， 则 会 使 用 dpe 的 值 作为 重新 取 指 令 的 PC (Flush PC). 


assign brchmis flush pc = 
cmt i dret ? csr dpc r : 
//cmt i mret ? csr epc r : 
csr epc r ; 


14.3.7 小结 


值得 再 次 强调 的 是 ， 调 试 系统 的 实现 难度 比 处 理 器 核 更 加 复杂 人 烦琐。 在 蜂鸟 E200 处理 
器 的 研发 过 程 中 ,花费 在 调试 系统 上 的 时 间 远 远 超过 处 理 器 核 本 身 ， 其 实现 细节 丰富 ， 本 书 
只 能 予以 简 述 。 仅 通过 本 章 上 述 若 干 要 点 不 足以 完全 理解 RISC-V 调试 机 制 的 硬件 实现 ， 
此 作者 强烈 建议 有 兴趣 的 读者 仔细 研读 “0.11 版 本 ”的 原文 ， 结 合 蜂 乌 E200 开源 的 Verilog 
源 代码 加 以 研究 ， 从 而 充分 理解 此 部 分 内 容 。 而 对 Debug 系统 软 硬 件 实现 细节 无 须 深 入 了 解 
的 读者 可 以 忽略 此 章 ， 勿 做 深究 。 


5155 sin, HELF 
RHEINE 
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对 于 处 理 器 而 言 ， 盟 然 我 们 非常 关注 其 主 频 和 性 能 ,但 有 一 个 不 可 忽视 的 事实 ， 那 就 是 
处 理 器 在 绝 大 多 数 的 时 间 是 处 于 待机 休 虐 状态 的 。 璧 如 我 们 日 常 使 用 的 手机 , 绝 大 多 数 的 时 
间 是 处 于 一 种 休眠 状态 。 即 便 是 在 运行 的 过 程 中 ， 大 段 的 时 间 也 是 处 于 性 能 要 求 不 高 的 场景 。 
以 知名 的 ARM big-LITTLE 架构 为 例 , 是 在 使 用 能 效 比 更 高 的 小 核 运行 于 性 能 要 求 不 高 的 场 
景 ， 只 有 在 最 关键 的 时 刻 才 启用 耗 电 较 高 的 大 核 。 

所 谓 “ 动 着 脱 免 ， 静 着 处 子 ”， 低 功 耗 机 制 对 于 处 理 右 而 言 人 至 关 曹 要。 本章 将 对 处 理 右 
的 低 功 耗 技术 加 以 介绍 ， 并 结合 蜂鸟 E200 处 理 器 阐述 其 低 功 耗 设计 的 诀 罕 。 


15.1 PEE py 


处 理 器 的 低 功 耗 技术 可 以 从 多 个 层面 加 以 探讨 ， 从 高 层 的 软件 、 系 统 ， 到 底层 的 硬件 工 
艺 均 可 涉及 。 


15.1.1 软件 层面 低 功 耗 


运行 于 处 理 器 之 上 的 是 软件 程序 ， 是 软件 赋予 了 处 理 器 灵魂 。 软 件 层 面 的 灵活 性 很 高 ， 
其 发 掘 低 功 耗 的 效果 比 硬件 低 功 耗 本 身 的 效果 更 加 显著 。 通 俗 地 讲 ， 底 层 硬 件 辛 辛 苦 苦 地 优 
化 设计 省 的 电 ， 远 远 不 如 软件 多 休眠 省 的 电 多 。 

为 了 使 处 理 器 消耗 尽 可 能 少 的 功 耗 ,一 套 好 的 软件 程序 应 该 尽 可 能 合理 地 调用 处 理 器 的 
硬件 资源 ， 臂 如 以 下 情况 。 

。 仅 在 关键 的 场景 调用 耗 能 高 的 硬件 ， 在 一 般 的 场景 尽 可 能 使 用 耗 能 低 的 硬件 。 

。 在 处 理 器 空闲 的 时 刻 ， 尽 可 能 进入 低 功 耗 休 虐 模 式 ， 以 节省 功 耗 。 

由 于 本 书 侧 重 于 硬件 设计 ， 因 此 对 软件 层面 的 机 制 不 做 装 述 。 


15.1.2 ”系统 层面 低 功 耗 


系统 层面 的 低 功 耗 技术 可 以 涉及 板 级 硬件 系统 和 必 片 内 的 SoC 系统 ， 其 原理 基本 一 致 。 
以 SoC 系统 为 例 ， 和 常见 的 低 功 耗 技 术 如 下 。 

。 SoC 系统 中 划分 不 同 的 电源 域 ， 能 够 支持 将 SoC 中 的 大 部 分 硬件 关闭 电源 。 

。 SoC 系统 中 划分 不 同 的 时 钟 域 ， 能 够 支持 小 部 分 电路 以 低速 低 功 耗 的 方式 运行 。 

。 通过 不 同 的 电源 域 与 时 钟 域 的 组 合 ， 划 分 出 不 同 的 低 功 耗 模式 。S$ocC 配备 PMU 

(Power Management Unit) 控制 进入 或 者 退出 不 同 的 低 功 耗 模式 。 
。 软件 可 以 通过 使 用 PMU 的 功能 ， 在 不 同 的 场景 下 进入 和 退出 不 同 的 低 功 耗 模式 。 
第 15.3 节 将 以 蜂鸟 E200 SoC 系统 为 例 阐述 上 述 宗旨 。 
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15.1.3 ”处 理 器 层面 低 功 耗 


处 理 器 层面 的 常见 的 低 功 耗 搁 术 如 下 。 

(1) 处 理 器 指令 集中 定义 一 种 休眠 指令 ， 运 行 该 指令 后 处 理 器 核 便 进入 休眠 状态 。 

(2) 休眠 状态 可 分 为 浅 度 休眠 和 深度 休眠 。 

。 浅 度 休眠 状态 往往 将 处 理 器 核 的 整个 时 钟 关 闭 ， 但 仍然 保留 电源 供电 ， 因 此 可 以 节 
省 动态 功 耗 ， 但 是 静态 漏电 功 耗 仍然 有 消耗 。 

。 深度 休眠 状态 不 仅 关 闭 处 理 器 核 的 时 钟 ， 甚 至 将 电源 也 关闭 ， 因 此 可 以 同时 省 掉 动 
态 和 静态 功 耗 。 

(3) 处 理 器 核 深 度 休 眠 断 电 后 ， 其 内 部 上 下 文 状态 可 以 有 两 种 策略 进行 保存 和 恢复 。 

。 策略 一 : 在 处 理 器 核 内 部 使 用 具有 低 功 耗 维持 (Retention ) 能 力 的 寄存 器 或 者 SRAM 
保存 处 理 器 状态 ， 这 种 寄存 器 或 者 SRAM 在 主 电源 被 关闭 后 可 以 使 用 极 低 的 漏电 消 
耗 保存 处 理 器 的 状态 。 

e 策略 二 : 使 用 软件 的 保存 恢复 (Save-and-Restore〉 机制 ， 即 在 断 电 前 将 处 理 器 的 上 
下 文 状态 保存 在 SoC 层面 的 电源 常 开 域 (Power Always-on Domain) 中 ， 待 到 唤醒 
恢复 供电 后 ， 使 用 软件 从 电源 常 开 域 中 读 取 回 来 加 以 恢复 。 

策略 一 的 优点 是 休眠 和 唤醒 的 速度 极 快 ， 但 是 ASIC 设计 的 复杂 上 度 高 ; 策略 二 的 优点 是 

实现 非常 简单 ， 但 是 休眠 和 唤醒 的 速度 相对 较 慢 。 

(4) 在 处 理 器 的 架构 上 ， 可 以 采用 异 构 的 方式 节省 功 耗 。 

e 有 关 异 构 的 典型 示例 ， 请 参见 第 16.1 节 了 解 更 多 细节 。 

e 另 一 种 知名 度 很 高 的 示例 便 是 ARM big-LITTLE 架构 ， 其 使 用 能 效 比 更 高 的 小 核 运 
行 于 性 能 要 求 不 高 的 场景 ， 只 有 在 最 关键 的 时 刻 才 局 用 耗 电 较 高 的 大 核 ， 从 而 节省 
动态 功 耗 。 


15.1.4 ”单元 层面 低 功 耗 


模块 和 单元 层面 的 低 功 耗 技 术 已 经 进入 了 IC 设计 微 架 构 的 范畴 。 其 常见 的 技术 与 SoC 
系统 层面 基本 一 致 ， 只 不 过 是 规模 更 小 的 版 本 。 
。 一 个 功能 完整 的 单元 往往 需要 单独 配备 独立 的 时 钟 门 控 (Clock Gate)， 当 该 模块 或 
者 单元 空闲 时 ， 可 以 使 用 时 钟 门 控 将 其 时 钟 关 闭 以 节省 动态 功 耗 。 
o 某 些 比较 独立 和 规模 较 大 的 模块 甚至 可 以 划分 独立 的 电源 域 来 支持 关闭 电源 ， 以 进 
一 步 节 省 静态 功 耗 。 
第 15.3 节 将 以 蜂鸟 E200 处 理 器 核 为 例 来 阐述 上 述 宗旨 。 
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15.1.5 “寄存 器 层面 低 功 耗 


寄存 器 层面 的 低 功 耗 技术 已 经 进入 了 IC 设计 编码 风格 的 范畴 ， 可 以 从 以 下 3 个 方面 减 
少 寄存 器 层面 的 功 耗 。 

(1) 时 钟 门 控 。 

e 目前 主流 的 逻辑 综合 工具 均 有 从 代码 风格 中 直接 推断 出 ICG (Integrated Clock 
Gating〉 的 能 力 。 因 此 只 要 遵循 一 定 的 编码 风格 ， 便 能 够 将 一 组 寄存 器 的 时 钟 自动 
推断 出 ICG， 以 节省 动态 功 耗 。 

。 在 逻辑 综合 完成 后 ， 工 具 可 以 生成 整个 电路 的 “时 钟 门 控 率 (Clock Gating Rate)”. 
开发 者 可 以 通过 此 “时 钟 门 控 率 ” 数 据 的 高 低 ， 来 判断 其 设计 的 电路 是 否 被 自动 推 
断 出 了 足够 的 ICG。 好 的 电路 一 般 有 超过 90% 的 “时 钟 门 控 率 ”， 否 则 可 能 是 电路 中 
数据 通路 较 少 (主要 以 小 位 宽 寄 存 器 为 基础 的 控制 电路 为 主 ), 或 者 编码 风格 有 问题 。 

(2) 减少 数据 通路 翻转 。 

为 了 减少 不 必要 的 动态 功 耗 ， 应 该 尽量 减少 寄存 器 的 翻转 。 

e 示例 一 : 以 处 理 器 的 流水 线 为 例 ， 每 级 流水 线 通 党 需要 配置 一 位 控制 位 (Valid 位 ) 
表示 该 级 流水 线 是 否 有 有 效 指令 。 当 指令 加 载 至 此 级 流水 线 时 将 Valid 位 设 为 高 ， 离 
开 此 级 流水 线 时 将 Valid 位 清 零 。 但 是 对 于 此 级 流水 线 的 数据 通路 载体 部 分 (Payload 
部 分 )， 只 有 在 指令 加 载 至 此 级 流水 线 时 ， 回 载体 (Payload) 部 分 的 寄存 器 加 载 指 
令 信 息 〈 通 常 有 数 十 位 )， 而 指令 离开 此 级 流水 线 时 ， 载 体 部 分 的 寄存 器 无 须 清 零 。 
通过 此 方法 能 够 极 大 减少 数据 通路 部 分 的 寄存 器 翻转 率 。 

e 示例 二 : 以 FIFO( 当 容量 较 小 而 使 用 寄存 器 作为 存储 部 分 ) 设计 为 例 ， 虽 然 理论 上 
可 以 使 用 比较 简单 的 数据 表 项 逐次 移 位 的 方式 , 实现 FIFO 的 先入 先 出 功能 , 但 是 却 
应 该 使 用 维护 读 写 指针 的 方式 (数据 表 项 寄存 器 则 不 用 移 位 〉 实现 先入 先 出 的 功能 。 
因为 数据 表 项 逐次 移 位 的 方式 会 造成 寄存 器 的 大 量 翻转 ， 相 比 而 言 ， 使 用 读 写 指针 
的 方式 实现 则 保持 了 表 项 寄存 器 中 的 值 静止 不 动 ， 从 而 大 幅 减 少 动态 功 耗 ， 因 此 应 
该 优先 采用 此 方法 。 

(3) 数据 通路 不 复位 。 

e 与 上 一 点 同 理 ， 对 于 数据 通路 部 分 的 寄存 器 ， 甚 至 可 以 使 用 不 带 复位 信号 的 寄存 器 。 
不 带 复位 信号 的 寄存 器 面积 更 小 ， 时 序 更 优 ， 功 耗 更 低 。 璧 如 对 于 某 些 缓冲 器 
(Buffer). FIFO 和 Regfile 的 寄存 器 部 分 ， 经 常 使 用 不 带 复 位 的 寄存 器 。 

。 但 使 用 不 带 复位 的 寄存 器 时 必须 小 心 谨慎 ， 保 证 其 没有 作为 任何 其 他 控制 信号 ， 以 
免 造 成 不 定 态 的 传播 。 在 前 仿真 阶段 ， 必 须 有 完善 的 不 定 态 捕捉 机 制 发 现 这 些 问题 ， 
否则 可 能 造成 芯片 的 严重 Bug. 蜂鸟 E200 的 设计 编码 风格 便 能 够 提供 强大 的 不 定 态 
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捕捉 机 制 ， 请 参见 第 5.3 节 了 解 有 关 信 息 。 


15.1.6” 锁 存 器 层面 低 功 耗 


锁 存 器 相 比 寄存 器 面积 更 小 ， 功 耗 更 低 。 在 茶 些 特定 的 场合 使 用 可 以 降低 芯片 功 耗 ， 但 
是 锁 存 器 会 给 数字 ASIC 流程 带 来 极 大 困扰 ， 因 此 应 该 谨慎 使 用 。 


15.1.7 SRAM 层面 低 功 耗 


SRAM 在 心 片 设计 中 经 常 使 用 到 ， 可 以 从 以 下 3 个 方面 减少 SRAM 的 功 耗 。 

(1) 选择 合适 的 SRAM. 

。 常规 SRAM 通常 分 为 “单口 SRAM CSingle Port SRAM)” 一 读 一 写 SRAM(Two-Port 
Regfile)”“ 双 口 SRAM (Dual-Port SRAM)”。 其 他 类 型 的 SRAM 需要 特殊 定制 。 

e 从 功 耗 与 面积 的 角度 来 讲 ， 单 口 SRAM 最 小 ， 一 读 一 写 Regfile 其 次 ， 双 口 SRAM 
最 大 。 应 该 优先 选择 功 耗 与 面积 小 者 ， 尽 量 避 人 免 使 用 高 功 耗 的 SRAM 类 型 。 

e SRAM 的 数据 宽度 也 会 影响 其 面积 。 以 同等 大 小 的 SRAM 为 例 ， 假 设 总 容量 为 16KB， 
如 果 SRAM 的 数据 宽度 为 32 位 ， 则 深度 为 4096。 如 果 SRAM 的 数据 宽度 为 64 位 ， 则 
深度 为 2048。 不 同 的 宽度 深度 比 可 能 会 产生 面积 迎 异 的 SRAM， 因 此 也 需要 综合 权衡 。 

(2) 尽量 减少 SRAM 读 写 。 

e SRAM 的 读 写 动态 功 耗 相当 可 观 ， 因 此 应 该 尽量 减少 读 写 SRAM. 

。 以 处 理 器 取 指 令 为 例 ， 由 于 处 理 器 多 数 按 顺序 取 指 ， 因 此 应 该 尽量 一 次 从 SRAM 中 
多 读 回 一 些 指令 ， 而 不 是 反复 多 次 地 读 取 SRAM (一 次 读 一 点 点 指令 )， 从 而 节省 
SRAM 的 动态 功 耗 。 

(3) 空闲 时 关闭 SRAM. 

。 与 单元 门 控 时 钟 相 同 的 原理 ， 在 空 帮 时 应 关闭 SRAM 的 时 钟 ， 以 节省 动态 功 耗 。 

e SRAM 的 漏电 功 耗 相当 可 观 ， 因 此 在 省 电 模 式 下 ， 可 以 将 SRAM 的 电源 关闭 ， 以 防 
止 漏电 。 


15.1.8 ”组 合 逻 辑 层 面 低 功 耗 


组 合 逻 辑 是 心 片 中 的 基本 逻辑 ， 可 以 从 以 下 两 个 方面 减少 组 合 逻 辑 的 功 耗 。 

(1) 减少 面积 。 

通过 使 用 尽量 少 的 组 合 逻 辑 面积 减少 静态 功 耗 ， 此 为 数字 逻辑 设计 的 基本 认 知 ， 无 须 装 述 。 
因此 从 设计 思路 和 代码 风格 上 ， 应 该 尽量 将 大 的 数据 通路 (或 者 运算 单元 ) 进行 复 用 ， 从 而 减 
少 面 积 。 男 外 应 该 避免 使 用 除法 、 乘 法 等 大 面积 的 运算 单元 ， 尽 量 将 其 转化 为 加 减法 运算 。 
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(2) 减少 翻转 率 。 

可 以 通过 逻辑 门 控 的 方式 ， 在 数据 通路 上 加 入 一 级 “与 ” 门 ， 使 没有 用 到 的 组 合 逻 辑 在 
空闲 时 不 翻转 ， 从 而 达到 减少 动态 功 耗 的 效果 。 额 外 加 入 一 级 与 门 ， 在 时 序 非常 紧 张 的 场合 
也 许 无 法 接受 ， 需 要 谨慎 使 用 。 


15.1.9 工艺 层面 低 功 耗 
工艺 层面 的 低 功 耗 一 般 涉及 使 用 特殊 的 工艺 单元 库 ， 本 书 在 此 不 做 过 多 探讨 。 


15.2 EE Tr 


处 理 器 指令 架构 本 身 并 不 会 定义 低 功 耗 机 制 , 但 是 如 第 15.1.3 节 中 所 述 , 处 理 器 架构 中 
通常 会 定义 一 条 休眠 指令 ， 本 节 将 介绍 RISC-V 架构 定义 的 WFI 指令 。 


WFI 指令 


WFI (Wait For Interrupt) 指令 是 RISC-V 架构 定义 的 专门 用 于 休 虐 的 指令 。 当 处 理 器 执行 
到 WFI 指令 之 后 ， 将 会 停止 执行 当前 的 指令 流 ， 进 入 一 种 空闲 状态 。 这 种 空闲 状态 可 以 被 称 为 
“休眠 ”状态 ， 直 到 处 理 器 接收 到 中 断 “〈 中 断 局 部 开关 必须 被 打开 ， 由 mie 寄存 器 控制 )， 处 理 
器 便 被 唤醒 。 处 理 器 被 唤醒 后 ， 如 果 中 断 被 全 局 打开 (mstatus 寄存 器 的 MIE 域 控制 )， 则 进入 
中 断 异 常服 务 程序 开始 执行 ， 如 果 中 断 被 全 局 关闭 ， 则 继续 顺序 执行 之 前 停止 的 指令 流 。 

以 上 是 RISC-V 架构 推荐 的 行为 , 在 具体 的 硬件 实现 中 ,WFI 指令 也 可 以 被 当成 一 种 NOP 操 
作 ， 即 什么 也 不 干 ( 并 不 真正 支持 休眠 模式 )。 关 于 WF 指令 的 更 多 细节 ， 请 参阅 附录 A14.2 T. 


15.3 CEART DE 


软件 层面 低 功 耗 机 制 超出 了 本 书 讨论 的 范畴 ， 在 此 不 做 赣 述 。 本 节 将 从 系统 、 处 理 器 、 单 
元 、 寄 存 器 、 锁 存 器 、SRAM、 组 合 逻 辑 以 及 工艺 层面 阐述 蜂鸟 E200 处 理 器 的 低 功 耗 机 制 。 


15.3.1 蜂鸟 E200 系统 层面 低 功 耗 


蜂鸟 E200 配套 的 SoC 结构 如 图 15-1 所 示 。 请 参见 第 18.2 节 了 解 更 多 蜂鸟 E200 的 SoC 
细节 。 
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表 15-1 
时 钟 域 
JTAG 时 钟 域 
(JIAG Clock Domain) 
主 域 


(Main Domain) 


常 开 域 


(Always-on Domain) 


其 他 系统 设备 
接口 


图 15-1 蜂鸟 E200 配套 SoC 总 体 结 构图 
蜂鸟 E200 配套 的 SoC 整体 分 为 3 个 时 钟 域 (Clock Domains)， 如 表 15-1 所 示 。 


蜂鸟 E200 配套 SoC 的 时 钟 域 
jt o a 


JTAG EH HH REHE JTAG 时 钟 


由 于 蜂鸟 E200 处 理 器 核 的 主 频 比 较 低 ， 该 SoC 中 对 时 钟 域 的 划分 相对 比较 简单 ， 将 所 有 的 外 设 、 存 
储 和 总 线 以 及 处 理 器 核 均 放 置 于 一 个 时 钟 域 ， 用 户 可 以 自行 修改 将 总 线 或 者 外 设 放 于 不 同 的 时 钟 域 
此 域 使 用 极其 低速 的 时 钟 ， 因 为 此 域 中 主要 包含 看 门 狗 计数 器 (Watch Dog Timer)、 实 时 计数 器 
(Real-Time Counter) 这 种 永 不 停 吹 的 计时 器 模块 。 如 果 使 用 高 速 时 钟 不 断 计 数 ， 会 造成 大 量 的 功 
耗损 失 ， 因 此 必须 使 用 低速 的 时 钟 作为 时 钟 频 率 控制 计时 器 计数 

请 参见 第 18.2.1 节 了 解 更 多 常 开 域 的 细节 


蜂鸟 E200 配套 的 SoC 整体 可 以 分 为 3 个 电源 域 (Power Domains )， 如 表 15-2 Br. 


表 15-2 
m 源 m 
调试 域 
(Debug Domain) 
主 域 
(Main Domain) 
常 开 域 


(Always-on Domain) 


蜂鸟 E200 配套 SoC 的 电源 域 
jt a 

此 域 中 包含 第 14 章 中 描述 的 所 有 调试 相关 的 硬件 模块 。 对 于 那些 不 需要 调试 功能 的 场景 ， 可 以 选 
择 将 此 域 关 电 以 节省 功 耗 
该 SoC 中 对 于 电源 域 的 划分 相对 比较 简单 ， 将 所 有 的 外 设 、 存 储 和 总 线 以 及 处 理 器 核 均 放置 于 一 
个 电源 域 ， 用 户 可 以 自行 修改 将 总 线 或 者 外 设 放 于 不 同 的 电源 域 
此 域 中 主要 包含 看 门 狗 计 数 器 、 实 时 计数 器 这 种 永 不 停歇 的 计时 器 模块 。 另 外 ， 此 域 中 还 包含 一 个 
电源 管理 单元 (Power Management Unit)， 可 以 用 来 控制 其 他 电源 域 的 开 和 关 
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通过 合理 地 关闭 不 同 的 电源 域 ， 便 可 以 进入 不 同 的 低 功 耗 模 式 。 壁 如 ， 软 件 可 以 将 整个 
主 域 和 调试 域 电 源 关 闭 ， 仅 保留 常 开 域 的 电源 。 通 过 配置 PMU 使 用 实时 计数 器 的 中 断 作 为 
唤醒 条 件 ， 将 整个 系统 重新 唤醒 。 请 参见 第 18.2.1 节 了 解 更 多 PMU 的 细节 。 

注意 : 在 GitHub 网 站 上 e200 opensource 项 目的 源 代 码 中 并 没有 实现 任何 电源 域 相关 的 
逻辑 ， 多 电源 域 的 设计 目前 需要 特定 ASIC 工艺 和 流程 的 支持 ， 请 读者 自行 实现 。 


15.3.2. #465 E200 处理 器 层面 低 功 耗 


蜂鸟 E200 处 理 器 层面 的 低 功 耗 主要 在 于 对 WFI 指令 的 实现 ， 硬 件 实现 要 点 如 下 。 

e e203_cpu_top 顶层 模块 有 一 个 输出 信号 core wfi。 当 该 信号 为 高 时 ， 表 示 处 理 器 核 
己 经 进入 了 休眠 模式 。 系 统 SoC 可 以 通过 检测 此 输出 信号 确定 处 理 器 已 经 进入 休眠 
状态 ， 继 而 安全 地 关闭 其 电源 。 

。 蜂鸟 E200 处 理 器 核 在 执行 了 WFI 指令 之 后 将 阻止 处 理 器 执行 后 续 的 指令 ， 并 要 求 
处 理 器 核 中 所 有 的 单元 完成 正在 执行 的 操作 〈 璧 如 完成 已 经 发 出 的 总 线 操作 )。 待 到 
满足 条 件 后 ， 便 意味 着 可 以 安全 地 进入 休眠 模式 ， 将 输出 信号 core wh 置 高 。 在 进 
入 休眠 模式 后 , 如 果 有 新 的 中 断 到 来 ， 则 会 重新 唤醒 处 理 器 ,并 将 输出 信号 core wfi 
置 低 。 相 关 模 块 的 源 代码 在 e200 opensource 目录 的 结构 和 源 代码 片段 如 下 。 


e200 opensource 
|----rtl // 存放 RTL 的 目录 
|----e203 // E203 核 和 Scc 的 RTL 目录 
|----core // 存放 处 理 器 核 相关 模块 的 RTL 代码 
|----e203 exu disp.v // 指令 派遣 模块 
|----e203 exu excp.v // 中 断 和 有 异常 处 理 模块 


// e203 exu disp.v 源 代码 片段 


// 如 果 已 经 执行 了 WEI 指令 ， 派 遗 模块 便 会 接收 到 来 自 交 付 模 块 要 求 EXU 单元 完成 所 有 操作 并 准备 休 
眠 的 请 求 信号 wfi halt exu req， 以 阻止 其 派 遗 后 续 的 指令 。 


wire disp condition - 
// If it was a WFI instruction commited halt req, then it 
will stall the disaptch 
& (-wfi halt exu req) 


// 等 待 所 有 已 经 灌 外 的 指令 执行 完毕 (OITF 变 空 》， 作 为 表征 EXU 单元 已 经 完成 所 有 操作 可 以 进入 休 
眠 的 反馈 信号 。 


assign wfi halt exu ack = oitf empty; 
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// e203 exu excp.v 源 代 码 片 段 


wire wfi req hsked - wfi halt ifu req & wfi halt ifu ack & wfi halt exu r 
eq & wfi halt exu ack; 


// core wfi 信号 在 执行 了 WEI 指令 并 且 其 他 单元 都 已 经 完成 了 所 有 正在 执行 的 操作 后 ， 将 被 置 高 。 


wire wfi flag set = wfi req hsked; 


// core wfi 信号 在 收 到 了 新 的 中 断 请 求 后 ， 或 者 进入 调试 模式 的 请 求 后 ， 将 被 置 低 。 


wire wfi irq reg; 

wire dbg entry req; 

wire wfi flag r; 

wire wfi flag clr - wfi irq req | dbg entry req; 

wire wfi flag ena - wfi flag set | wfi flag clr; 

// If meanwhile set and clear, then clear preempt 

wire wfi flag nxt = wfi flag set & (-wfi flag clr); 

sirv gnrl dfflr #(1) wfi flag dfflr (wfi flag ena, wfi flag nxt, wfi flag 
.r, clk, rst n); 

assign core wfi = wfi flag r & (-wfi flag clr)»; 


蜂鸟 E200 处 理 器 核 在 顶层 配备 了 专门 的 时 钟 控制 模块 ,用 于 控制 处 理 器 核 的 时 钟 关 闭 。 
时 钟 控制 模块 的 源 代码 在 e200_opensource 目录 的 结构 如 下 。 


e200 opensource 
|----rtl // 存放 RTL 的 目录 
|----e203 // E203 核 和 Soc 的 RTL 目录 
|[7---5re // 存放 处 理 器 核 相关 模块 的 RTL 代码 
|7---e203 clk ctrl.* // 时 钟 控制 模块 


当 处 理 器 核 执 行 了 WFI 指令 之 后 ， 时 钟 控制 模块 将 处 理 器 核 中 所 有 单元 的 时 钟 门 控 均 
关闭 ， 从 而 进入 休眠 状态 。 相 关 源 代码 片段 如 下 所 示 。 


// e203 clk ctrl.v 源 代码 片段 


// 使 用 core wfi 信号 强行 将 时 钟 门 控 的 使 能 信和 号 置 低 。 


// The IFU is always actively fetching unless there is WFI to override it 
wire ifu clk en = (core ifu active & (-core wfi)); 


// 时 钟 门 控 的 使 能 信号 用 于 门 控 时 钟 的 生成 
e203 clkgate u ifu clkgate( 
.Glk in (clk ) 
.test mode(test mode ), 
.Clock en (ifu clk en), 


.Clk out  (clk core ifu) // MF iru 单元 的 时 钟 
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(5.3.3 4&5 E200 单元 层面 低 功 耗 


蜂 马 E200 处 理 器 核 的 几 个 主要 的 功能 单元 均 配 备 了 独立 的 时 钟 门 控 ， 一 旦 单元 处 于 空 
用 的 周期 ， 即 自动 地 将 时 钟 天 闭 ， 从 而 节省 动态 功 耗 。 典 型 的 源 代码 片段 如 下 所 示 。 
// e203 clk ctrl.v 源 代码 片段 


// core lsu active 信号 表征 LSU 单元 目前 是 否 空闲 ， 如 果 该 信号 为 低 电 平 ， 则 意味 着 空闲 ， 将 
1su_clk_en 信号 置 低 。 


wire lsu clk en - core lsu active; 


// WR lsu cik en 信号 为 低 ， 则 将 门 控 时 钟 关闭 
e203 clkgate u lsu clkgate( 
.Clk in (clk y 5 
.test mode(test mode ), 
.clock en (Isu clk en), 
.Clk out  (clk core lsu) 
); 


15.3.4 5 E200 Zr frs IB KITE 


如 第 15.1.5 节 所 述 ， 寄 存 右 层面 低 功 耗 可 以 从 “时 钟 门 控 ”“ 减 少数 据 通路 翻转 ”“ 数 据 
通路 不 复位 ”3 个 方面 减少 功 耗 。 下 面 以 蜂鸟 E200 的 源 代码 为 例 ， 分 别 予 以 阐述 。 

1. 时 钟 门 控 

蜂鸟 E200 遵循 严格 的 代码 风格 ， 将 所 有 的 寄存 器 编码 为 模块 化 的 D 触发 器 模块 
(DFF-Module)， 从 而 方便 综合 工具 轻松 地 识别 其 Load-Enable 信号 ， 继 而 推断 出 ICG, W 
很 高 的 时 钟 门 控 率 。 请 参见 第 5.3 节 了 解 更 多 有 关 蜂 鸟 E200 处 理 器 核 RTL 代码 风格 的 信息 。 

模块 化 的 DFF-Module 的 源 代码 在 e200_opensource 目录 的 结构 如 下 。 


e200 opensource 


|----rtl // 存放 RTL 的 目录 
|----e203 // E203 核 和 Soc 的 RTL 目录 
|----general // 存放 一 些 公 用 的 通用 RTL 代码 
|----sirv gnrl dffs.v / /模块 化 的 DFF-Modules 
典型 的 源 代 码 片 段 如 下 所 示 。 


// e203 grnl dffs.v 源 代 码 片段 


// 该 模块 被 调用 例 化 生成 带 有 Load-Enable， 异 步 Reset 的 D 触发 器 (D Flip-Flops) 
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module sirv gnrl dfflrs # ( 
parameter DW = 32 
) ( 


input lden, 
input [DW-1:0] dnxt, 
output [DW-1:0] qout, 
input cik, 

input rst_n 


); 
reg [DW-1:0] qout r; 


always 8 (posedge clk or negedge rst n) 
begin : DFFLRS PROC 
if (rst n == 1'0) 
qout r <= (DW(1'bl])); 
else if (lden == 1'b1) // 了 明确 的 Load-Enable 信号 便于 综合 工具 轻松 地 识别 推断 出 ICG 
qout r <= dnxt; 
end 


assign qout = qout r; 
endmodule 


2. 减少 数据 通路 翻转 

蜂鸟 E200 遵循 如 第 15.1.5 节 中 所 述 的 原则 ， 流 水 线 或 者 数据 通路 的 Payload 部 分 只 有 
在 流水 线 加 载 时 更 新 。 在 流水 线 清 空 之 时 ， 寄 存 器 中 的 值 并 不 会 清除 ， 从 而 减少 数据 通路 的 
寄存 器 翻转 。 

典型 的 一 级 流水 线 模 块 的 源 代 码 在 e200 opensource 目录 的 结构 如 下 。 


| e200 opensource 
[----rti // 存放 RTL 的 目录 
|----e203 // E203 核 和 Soc 的 RTL 目录 
|----general // 存放 一 些 公 用 的 通用 RTL 代码 
|----sirv gnrl bufs.v // 存 放 一 级 流水 线 模块 的 源 代 码 


一 级 流水 线 模块 的 源 代码 片段 如 下 所 示 。 


// sirv gnrl pipe stage.v 源 代码 片段 


// 流水 线 会 配备 一 个 有 效 控制 位 (valid) 寄存 器 


wire vld set; 
wire vld clr; 
wire vld ena; 
wire vld r; 

wire vld nxt; 
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// 有 效 位 寡 存 器 在 流水 线 加 载 时 置 高 


assign vld set - i vld & i rdy; 


// 有 效 位 寡 存 器 在 流水 线 清空 时 清 堆 


assign vld clr = o vld & o rdy; 


assign vld ena = vld set | vld cir; // 有 效 位 宵 存 器 在 加 载 或 者 清空 时 使 能 
assign vld nxt = vld set | (-vld clr); // 置 高 或 者 清 零 ， 若 同时 发 生 ， 置 高 优先 


// 例 化 有 效 控制 位 寄存 器 
sirv gnrl dfflr f(1) vld dfflr (vld ena, vld nxt, vlg r, clk, rst n); 


/ /Payload 部 分 的 数据 通路 只 有 在 流水 线 加 载 时 使 能 翻转 ， 因 此 其 Load-enable 使 用 vld set 信号 
sirv gnrl dffl #(DW) dat dfflr (vld set, i dat, o dat, clk); 


3. 数据 通路 不 复位 
蜂 乌 E200 遵循 如 第 15.1.5 节 所 述 的 原则 ， 对 于 大 片 的 纯 数据 通路 《〈 非 控制 信号 ) 寄存 


器 不 使 用 复位 信号 ， 从 而 减少 面积 与 功 耗 。 典 型 的 模块 ， 如 FIFO (使 用 寄存 器 作为 存储 部 
分 ) 模块 和 通用 寄存 器 组 CRegfile) 模块 。 其 源 代 码 在 e200_ opensource 目录 的 结构 如 下 。 


e200 opensource 


|----rtl // 存放 RTL 的 目录 
| ----e203 // E203 核 和 Soc 的 RTL 目录 
|----general // 存放 一 些 公用 的 通用 RTL 代码 
|4----sirv gnrl bufs.v // 存 放 FIFO 模块 的 源 代码 
|77--core 
|----e203 exu regfile.v // 存 放 Regfile 模块 的 源 代码 
FIFO 模块 的 源 代码 片段 如 下 所 示 。 


// sirv gnrl fifo.v 源 代 码 片 段 


for (i=0; i<DP; i=i+1) begin:fifo rf//( 
assign fifo rf en[i] = wen & wptr vec r[i]; 
// FIFO 的 存储 寄存 器 部 分 不 使 用 Reset 复位 信号 
sirv gnrl dffl 1$(DW) fifo rf dffl (fifo rf en[i], i dat, fifo rf r[il], cik); 
end//) 


Regfile 模块 的 源 代码 片段 如 下 所 示 。 


// e203 exu regfile.v 源 代 码 片段 
generate //( 


for (i20; i«'E203 RFREG NUM; i=i+1) begin:regfile//| 
else begin: rfnoO 
assign rf wen[i] = wbck dest wen & (wbck dest idx == i) ; 
'ifdef E203 REGFILE LATCH BASED //{ 
e203  clkgate u |. e203 _clkgate( 
.Clk in (clk ), 
.test mode(test mode), 
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.Clock en(rf wen[i]), 
.Clk out (clk rf ltch[i]) 
); 
//from write-enable to clk rf ltch to rf ltch 
sirv gnrl ltch #('E203 XLEN) rf ltch (clk rf ltch[i], wbck dest 
dat r, xf riil)? 
'else//)( 
// 如 果 使 用 宥 存 器 实现 的 Regfile， 其 宥 存 器 不 使 用 Reset 复位 信号 
sirv gnrl dffl $('E203 XLEN) rf dffl (rf wen[i], wbck dest dat, 
rt tiili elk; 
'endif//) 
end 


end//) 
endgenerate//)] 
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如 第 15.1.6 节 所 述 ， 锁 存 器 相 比 寄存 器 面积 更 小 ， 功 耗 更 低 。 在 某 些 特定 的 场合 使 用 可 
以 降低 芯片 功 耗 。 在 蜂 乌 E200 的 实现 中 ， 通 用 寄存 器 组 (Regfile) 模块 可 以 配置 为 基于 锁 
存 器 的 实现 ， 从 而 大 幅 减 少 Regfile 的 面积 。 
注意 : 锁 存 器 会 给 数字 ASIC 流程 带 来 极 大 困扰 ， 因 此 应 该 谨慎 使 用 此 配置 。Regfile 模 
块 的 源 代码 片段 如 下 所 示 。 
// e203 exu regfile.v 源 代 码 片 段 


generate //{ 


for (i20; i«'E203 RFREG NUM; i-i*1) begin:regfile//| 
else begin: rfnoO 
assign rf wen[i] = wbck dest wen & (wbck dest idx -- i) ; 
'ifdef E203 REGFILE LATCH BASED //{ 
e203 clkgate u e203 clkgate( 
clk in (eik ), 
.test mode(test mode), 
.Clock en(rf wen[i]), 
.Clk out (clk rf ltch[i]) 
); 
// 可 以 配置 使 用 锁 存 器 实现 Regfile 
sirv gnrl ltch £&('E203 XLEN) rf ltch (clk rf ltch[i], wbck dest 
st r; rË riii? 
'else//}1 
sirv gnrl dffl #('E203 XLEN) rf dffl (rf wen[i], wbck dest dat, rf 
Elije clk); 
'endif//] 
end 


end//) 
endgenerate//) 
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15.3.6 ”蜂鸟 E200 SRAM 层面 低 功 耗 


如 第 15.1.7 节 所 述 , SRAM 层面 低 功 耗 可 以 从 “选择 合适 的 SRAM”“ 尽 量 减 少 SRAM 
读 写 ”“ 空 闪 时 关闭 SRAM”3 个 方面 减少 功 耗 。 以 下 以 蜂鸟 E200 源 代 码 为 例 ， 分 别 予 以 
HR. 

(1) 选择 合适 的 SRAM. 

e 蜂鸟 E200 的 ITCM fil DTCM 均 需 使 用 SRAM。 如 第 15.1.7 WATR, 单口 SRAM 在 
3 种 不 同 的 SRAM 类 型 中 最 为 省 电 ， 因 此 为 了 减少 功 耗 和 面积 ， 蜂 鸟 E200 均 采 用 
单口 SRAM 实现 ITCM 和 DTCM. 

。 如 第 15.1.7 节 所 述 ，SRAM 的 形状 也 能 影响 功 耗 的 大 小 。 蜂 乌 E200 的 ITCM SRAM 
宽度 选择 为 64 位 ， 之 所 以 选择 64 位 宽 ， 是 因为 对 于 同等 容量 的 SRAM 而 言 ，64 
位 宽 的 SRAM 比 32 位 宽 的 SRAM 具有 更 好 的 面积 压缩 比 ， 从 而 减少 功 耗 开 销 。 

(2) 尽量 减少 SRAM 读 写 。 

e 如 第 15.1.7 节 所 述 , 尽量 减少 SRAM 的 读 写 能 够 有 效 降低 功 耗 。 蜂 乌 E200 的 ITCM 
SRAM 宽度 选择 为 64 位 , 同样 可 以 减少 ITCM SRAM 的 读 功 耗 。 这 是 因为 处 理 器 在 
取 指 令 时 ， 多 数 情况 为 按 顺 序 取 指 ， 因 此 64 位 宽 的 ITCM 可 以 一 次 取出 64 位 的 指 
令 流 ， 相 比 于 从 32 位 宽 的 ITCM 中 需要 连续 读 两 次 才 取 出 64 位 的 指令 流 ， 只 读 一 
次 64 位 宽 的 SRAM 能 够 消耗 更 少 的 动态 功 耗 。 

e 由 于 蜂鸟 E200 ITCM 的 SRAM 宽度 为 64 位 ， 因 此 其 输出 为 一 个 与 64 位 地 址 区 间 
对 齐 的 数据 ， 在 此 称 之 为 一 个 “Lane”。 假设 是 地 址 自 增 的 顺序 取 指 ， 由 于 IFU 每 次 
只 取 32 位 ， 因 此 会 连续 两 次 或 者 多 次 在 同一 个 Lane 里 面 访问 。 如 果 上 次 已 经 访问 
了 ITCM 的 SRAM, 则 下 一 次 取 指 在 同一 个 Lane 的 访问 不 会 再 次 真 的 读 SRAM (不 
会 打开 SRAM 的 CS 使 能 )， 而 是 利用 SRAM 输出 保持 不 变 的 特点 ， 直 接 使 用 其 保 
持 不 变 的 输出 ， 这 样 可 以 省 却 SRAM 重复 打开 造成 的 动态 功 耗 。 请 参见 第 7.3.5 市 
了 解 有 关 ITCM SRAM 实现 的 更 多 详情 。 

。 此 外 ， 蜂 乌 E200 ITCM 的 SRAM 宽度 为 64 位 相对 于 32 位 的 SRAM 而 言 ， 能 够 进 
一 步 减 少 取 指 令 落 入 地 址 非 对 齐 边 界 的 概率 〈 如 果 SRAM 为 32 位 宽 则 较 多 概率 落 
A 32 位 非 对 齐 的 地 址 边界 , 而 64 位 宽 的 SRAM 仅 在 64 位 的 地 址 边界 发 生 非 对 齐 )， 
从 而 减少 非 对 齐 取 指令 造成 的 性 能 和 功 耗 损失 。 请 参见 第 7.3.5 节 了 解 有 关 非 对 齐 取 
指令 实现 的 更 多 详情 。 

(3) 空闲 时 关闭 SRAM. 

蜂 乌 E200 的 SRAM 均 配 备 独 立 的 门 控 时 钟 单元 ， 以 减少 动态 功 耗 ， 典 型 代码 片段 如 下 

所 示 。 
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// sirv lcyc sram ctrl.v 源 代 码 片段 


// 此 模块 被 例 化 于 e203 itcm ctrl 与 e203 dtcm ctrl 模块 中 用 于 控制 ITCM 和 DTCM 的 
SRAM 模块 读 写 


assign ram cs = uop cmd valid & uop cmd ready; 
assign ram we = (-uop cmd read); 

assign ram addr- uop cmd addr [AW-1:AW LSB]; 
assign ram wem = uop cmd wmask[MW-1:0]; 

assign ram din - uop cmd wdata[DW-1:0]; 


wire ram clk en - ram cs; 


e203 clkgate u ram clkgate( 
.Clk in (clk ), 
.test mode (test mode ), 
.Clock en (ram clk en), 
.Clk out  (clk ram) 


// 为 SRAM 配备 独立 的 时 钟 门 控 单元 ， 只 有 在 访问 SRAM 时 (Cs 为 高 ) 才 将 其 时 钟 打开 。 
| je 


assign uop rsp rdata = ram dout; 


15.3.7 $45 E200 组 合 逻 辑 层 面 低 功 耗 


如 第 15.1.8 节 所 述 ， 组 合 逻 辑 层 面 低 功 耗 可 以 从 “减少 面积 ”和 “减少 翻转 率 ” 两 个 方 
面 减少 功 耗 。 以 下 以 蜂鸟 E200 源 代码 为 例 ， 分 别 予 以 阐述 。 
(1) 减少 面积 。 
蜂鸟 E200 设计 的 一 个 重要 目标 便 是 尽量 减少 面积 实现 超 低 功 耗 ， 因 此 从 设计 思路 和 代 
码 风 格 上 尽量 将 大 的 数据 通路 〈 或 者 运算 单元 ) 进行 复 用 ， 从 而 减少 面积 ， 情 况 如 下 所 示 。 
。 ALU 中 的 数据 通路 被 充分 复 用 (参见 第 8.3.8 节 了 解 ALU 的 实现 细节 )、 多 周期 乘 
除法 器 也 共用 数据 通路 (参见 第 8.3.9 节 了 解 整数 乘除 法 器 的 实现 细节 D. 
e 在 蜂鸟 E200 的 源 代码 设计 之 中 , 无 处 不 在 地 尽量 进行 着 资源 复 用 ， 本 书 在 此 不 一 一 
资 述 ， 感 兴趣 的 读者 可 以 在 阅读 源 代 码 时 上 自行 体会 。 
(2) 减少 动态 功 耗 。 
蜂鸟 E200 设计 的 另外 一 个 重要 目标 便 是 尽量 降低 翻转 率 ， 以 实现 超 低 功 耗 ， 因 此 从 设 
计 思 路 和 代码 风格 上 尽量 减少 了 组 合 逻 辑 的 翻转 率 ， 甚 至 在 某 些 情况 下 物 牲 了 时 序 。 
e 蜂鸟 E200 的 每 个 运算 单元 的 输入 信号 均 额 外 加 入 了 一 级 “与 ” 门 ， 当 每 个 运算 单元 
不 被 使 用 时 ， 其 输入 信号 被 “与 ” 门 屏蔽 成 为 0， 从 而 使 运算 单元 的 输入 组 合 钦 辑 
部 分 在 空闲 时 不 发 生 翻转 ， 减 少 动态 功 耗 。 
。 由 于 蜂 乌 E200 寄存 器 组 (Regfile) 模块 的 每 个 读 亲口 都 是 一 个 纯粹 的 并 行 多 路 选择 
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器 ， 多 路 选择 器 的 选择 信号 为 读 操 作 数 的 寄存 器 索引 。 为 了 减少 功 耗 ， 读 端口 的 寄 
存 器 索引 信号 被 专用 的 寄存 器 进行 寄存 ， 只 有 在 执行 需要 读 操作 数 的 指令 时 才 会 被 
加 载 《〈 和 否则 保持 不 变 )， 从 而 减少 读 端 口 的 动态 翻转 功 耗 。 


15.8.8. 6 E200 工艺 层面 低 功 耗 
工艺 层面 的 低 功 耗 一 般 涉及 使 用 特殊 的 工艺 单元 库 ， 本 书 在 此 不 做 过 多 探讨 。 


> 


蜂鸟 E200 处 理 器 核 虽 然 是 一 球 开源 处 理 器 核 ， 但 是 蜂鸟 E200 系列 处 理 嚣 研发 团队 拥 
有 多 年 在 国际 一 流 公司 开发 处 理 器 的 经 验 ， 使 用 严格 的 工业 界 标准 进行 设计 和 编码 。 如 本 章 
各 节 中 所 述 ， 蜂 鸟 E200 处 理 器 核 从 各 个 层面 使 用 严谨 的 方法 进行 低 功 耗 设计 ， 不 进 色 于 任 
何其 他 商用 的 处 理 器 核 IP. 
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本 章 将 介绍 如 何 利 用 RISC-V 的 可 扩展 性 ， 并 以 蜂鸟 E200 的 协 处 理 器 接口 为 例 详细 闻 
述 如 何 定制 一 款 协 处 理 器 。 


16.1 EZE EZADI 


熟悉 计算 机 体系 结构 的 读者 可 能 熟知 “ 异 构 计 算 ” 的 概念 ， 异 构 计 算 的 直接 解释 是 指 不 
同 指令 集 架构 的 几 种 处 理 器 组 合 在 一 起 进行 计算 。 异 构 计 算 的 精 蟹 并 不 在 于 异 构 本 身 ,其 核 
心 的 理念 在 于 使 用 专业 的 硬件 做 专业 的 事情 ， 典 型 的 例子 是 CPU+GPU 的 组 合 ，CPU 侧重 
于 通用 的 控制 和 计算 ， 而 GPU 则 侧重 于 专用 的 图 像 处 理 。 研 究 表 明 多 核 异 构 计 算 由 于 利用 
了 专业 的 特性 ， 可 以 获得 比 普通 同 构 染 构 更 高 的 性 能 ， 而 消耗 更 少 的 功 耗 。 

与 异 构 计算 原理 相同 而 更 加 通俗 、 亲 民 的 男 外 一 个 概念 便 是 专用 领域 架构 (Domain 
Specific Architecture, DSA )。 著 名 的 计算 机 体系 结构 领域 泰斗 John Hennessy 教授 在 2017 年 的 
演讲 一 次 中 提 到 ， 目 前 处 理 器 发 展 的 新 希望 在 于 DSA. John Hennessy 教授 将 1977 一 2017 年 
间 的 40 年 称 之 为 处 理 器 发 展 的 “黄金 40 年 "”。 在 这 40 年 间 ， 处 理 器 以 令 人 惊异 的 速度 发 展 ， 
处 理 器 的 性 能 以 平均 每 年 1.4 倍 的 速度 呈 指 数 提 高 ， 相 比 最 早期 的 处 理 器 ， 当 今 处 理 器 达到 了 
上 百 万 倍 的 性 能 提升 。 随 着 摩尔 定律 的 发 展 逼 近 极 限 ， 处 理 器 架构 的 发 展 也 遭遇 了 瓶颈 。 单 
核 指令 级 并 行 度 从 早期 需要 平均 4 一 10 个 时 钟 周期 完成 一 条 指令 到 如 今 一 个 周期 可 以 执行 超 
过 4 条 指令 ; 时 钟 频率 从 早期 3MHz 发 展 到 如 今 4GHz; 处 理 器 核 数 从 早期 的 单 核 发 展 到 数 十 
个 核 。 这 三 个 方面 的 发 展 目前 均 已 盘 近 极限 ， 同 时 处 理 器 的 应 用 领域 也 发 展 到 了 更 加 多 样 的 
云端 、 移 动 端 、 深 嵌入 式 端 等 领域 ， 且 能 效 比 正成 为 最 重要 的 指标 。 辟 如， 处 理 器 在 移动 设 
备 中 已 经 成 为 继 屏 幕 之 后 能 量 消耗 最 大 的 元 件 ， 因 此 移动 设备 中 处 理 器 能 效 比 是 至 关 重 要 的 
问题 。 而 在 另 一 个 未 来 的 处 理 器 大 型 市 场 一 一 云端 服务 器 市 场 ， 能 效 比 也 是 十 分 关键 的 指标 。 
在 数据 中 心 的 成 本 中 ， 散 热 已 经 成 了 最 高 的 成 本 之 一 。 为 了 减少 成 本 必须 考虑 处 理 器 能 效 比 ， 
处 理 器 架构 必须 改善 能 效 比 ， 但 是 传统 通用 架构 设计 方法 的 能 效 比 已 经 到 了 极限 。 

为 了 进一步 提高 能 效 比 ，John Hennessy 教授 指出 ， 处 理 器 架构 的 希望 在 于 专用 领域 处 
理 器 架构 。DSA 的 核心 思想 同样 是 使 用 专用 的 硬件 做 专用 的 事情 ， 但 是 与 ASIC 硬件 化 的 电 
路 不 同 ，DSA 是 满足 一 个 Domain 内 的 应 用 ， 而 非 一 个 固定 的 应 用 ， 因 此 它 能 够 满足 灵活 性 
与 专用 性 的 折衷 。 同 时 它 需 要 更 多 专用 领域 的 专业 知识 ， 从 而 更 好 地 为 Domain Specific ix 
计 出 更 合适 的 架构 。 

DSA 有 了 时 也 被 解释 为 Domain Specific Accelerator, 即 对 主 处 理 器 适当 地 扩展 出 面向 某 些 
特定 领域 的 协 处 理 器 加 速 器 ， 这 种 “Domain Specific Accelerator” 也 是 “Domain Specific 
Architecture” 的 体现 ， 能 极 大 地 提高 能 效 比 。 
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16.2 CRAE wl: se: 


RISC-V 架构 的 显著 特性 之 一 便 是 开放 的 可 扩展 性 ， 从 而 能 够 非常 容易 在 RISC-V 的 通 
用 架构 基础 上 实现 Domain Specific Accelerator， 这 也 是 RISC-V 架构 相 比 ARM 和 x86 等 主 
流 商 业 架 构 的 最 大 优点 。RISC-V 的 可 扩展 性 体现 在 如 下 两 个 方面 : 

e 预 留 的 指令 编码 空间 。 

。 预定 义 的 Custom 指令 。 


16.2.1 RISC-V 的 预 留 指令 编码 空间 


RISC-V 架构 定义 的 标准 指令 集 仅 使 用 了 少 部 分 的 指令 编码 空间 ， 更 多 的 指令 编码 空间 
被 预 留 给 用 户 作 为 扩展 指令 使 用 。 由 于 RISC-V 架构 支持 多 种 不 同 的 指令 长 度 ， 不 同 的 指令 
长 度 均 预 留 有 不 同 的 编码 空间 。 以 最 常用 的 32 位 和 16 位 长 度 指令 为 例 ， 如 表 16-1 和 表 16-2 
所 示 ， 指 令 的 低 7 位 为 opcode， 各 种 不 同 的 opcode 值 的 组 合 代表 了 不 同 的 指令 类 型 ， 璧 如 
AMO 指令 和 OP-FP CFA) 指令 。 用 户 可 以 从 3 个 方面 利用 RISC-V 预 留 的 编码 空间 。 

表 16-1 RISC-V 架构 32 位 指令 opcode 表 (inst[1:0]==11) 


inst[4:2] 


x 16-2 RISC-V 架构 16 位 指令 opcode X 


inst[15:13] 
inst[1:0] 
FLD RV32 
ADDIASPN Reserved 
RV128 
RV32 
ADDIW LUI/ADDII6SP MISC-ALU BEQZ | BNEZ | RV64 
i e EDS 5 
FLDSP FLWSP FSDSP FSWSP | RV32 
SLLI FLDSP | LWSP LDSP J[ALJR/MV/ADD | FSDSP | SWSP | SDSP RV64 
LQ LDSP SQ SDSP | RVI28 
S 


>16b 
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。 每 个 指令 的 编码 空间 ， 除 了 用 于 寄存 器 操作 数 的 索引 之 外 ， 还 剩余 众多 位 的 编码 空 
间 ， 对 于 这 些 没 有 使 用 的 编码 空间 ， 用 户 均 可 以 加 以 利用 。 

。 另外 对 于 某 些 特定 的 处 理 器 实现 ， 由 于 其 往往 不 会 实现 所 有 的 指令 类 型 ， 对 于 没有 
实现 的 指令 类 型 的 编码 空间 ， 用 户 也 可 以 加 以 利用 。 

e 有 一 些 没有 定义 的 指令 类 型 组 ， 用 户 也 可 以 加 以 利用 。 


16.2.2 ”RISC-V 的 预定 义 的 Custom 指令 


为 了 便于 用 户 对 RISC-V 进行 扩展 ，RISC-V 架构 甚至 在 32 位 的 指令 中 预定 义 了 4 组 
Custom 指令 类 型 ， 每 种 Custom 均 有 自己 的 Opcode。 如 表 16-1 所 示 ，custom-0、custom-1、 
custom-2 和 custom-3 共 4 种 Custom 指令 类 型 。 用 户 可 以 利用 这 4 种 指令 类 型 扩展 成 为 自 定 
义 的 协 处 理 器 指令 。 蜂 鸟 E200 处 理 器 核 便 使 用 Custom 指令 扩展 协 处 理 器 指令 。 


16.3 ETIN TITEL 


蜂鸟 E200 AEE ZRA EE S DUBIE 3E ] 7 FÜRS RISC-V Aba Rocket Core 的 协 处 理 器 
接口 RoCCCRocket Custom Coprocessor), 且 接 口 信 号 定义 非常 类 似 .为 了 将 其 与 原始 的 RoCC 
接口 进行 区 分 ， 命 名 为 EAI (Extension Accelerator Interface)。 本 节 将 以 一 个 实际 案例 来 详细 
阐述 如 何 使 用 EAI 接口 和 Custom 指令 扩展 出 蜂鸟 E200 协 处 理 器 。 

注意 : 由 于 蜂鸟 E200 处 理 器 核 基 于 Custom 指令 进行 协 处 理 器 扩展 , 因此 本 章 将 Custom 
指令 也 称 为 EAI 指令 。 


16.3.1 EAI 指令 的 编码 
32 位 的 EAI 指令 编码 格式 如 图 16-1 所 示 。 





31 25 24 20 19 15 14 13 12 11 7T 6 0 
[ ad | m | wl [d[e md | opcode | 
T 5 5 1 1 1 5 7 
图 16-1 EAI 指令 编码 格式 
CD 指令 的 第 0 位 至 第 6 位 区 间 为 Opcode 编码 段 ， 根 据 表 16-1 中 的 编码 规则 使 用 编码 
custom-0、custom-1、custom-2 和 custom-3 指令 组 。 


(2) xsl, xs2 和 xd 比特 位 分 别 用 于 控制 是 否 需 要 读 源 寄存 器 rs1、rs2 和 与 目标 寄存 器 rd。 
。 WẸ xsl 位 的 值 为 1， 则 表示 该 指令 需要 读 取 由 rsl 比特 位 索引 的 通用 寄存 器 作为 源 
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操作 数 1; 如 果 xsl 位 的 值 为 0， 则 表示 该 指令 不 需要 源 操作 数 1。 

e 同 理 ， 如 果 xs2 位 的 值 为 1， 则 表示 该 指令 需要 读 取 由 rs2 比特 位 索引 的 通用 寄存 器 
作为 源 操作 数 2; WR xs2 位 的 值 为 0， 则 表示 该 指令 不 需要 源 操作 数 2。 

e 如果 xd 位 的 值 为 1， 则 表示 该 指令 需要 写 回 结果 至 由 rd 比特 位 指示 的 目标 寄存 器 ; 
如 果 xd 位 的 值 为 0， 则 表示 该 指令 无 须 写 回 结果 。 

(3) 指令 的 第 25 位 一 第 31 位 为 funct7 区 间 ， 可 作为 额外 的 编码 空间 ， 用 于 编码 更 多 的 
指令 ， 因 此 一 种 Custom 指令 组 可 以 使 用 funct7 区 间 编 码 出 128 条 指令 ， 则 4 组 Custom 指 
令 组 共 可 以 编码 出 512 条 两 读 一 写 〈 读 取 两 个 源 寄 存 器 ， 写 回 一 个 目标 寄存 器 ) 的 协 处 理 器 
指令 。 如 果 有 的 协 处 理 器 指令 仅 读 取 一 个 源 寄存 器 ， 或 者 无 须 写 回 目标 寄存 器 ， 则 可 以 使 用 
这 些 无 用 的 比特 位 〈( 辟 如 rd 比特 位 ) 来 编码 出 更 多 的 协 处 理 器 指令 。 


16.3.2 EAI 接口 信号 


EAI 接口 信号 如 表 16-3 所 示 ，EAI 接口 主要 包含 4 个 通道 。 

。 请 求 通道 (Request Channel): 主要 用 于 主 处 理 器 在 EXU 级 将 指令 信息 和 源 操作 数 
派发 给 协 处 理 器 。 

e 反馈 通道 (Response Channel): 主要 用 于 协 处 理 器 反馈 主 处 理 器 告知 其 已 经 完成 了 
该 指令 ， 并 将 结果 写 回 主 处 理 器 。 

e TFIA RKE (Memory Request Channel): 主要 用 于 协 处理 器 向 主 处 理 器 发 起 存 


储 器 读 写 请 求 。 

。 存储 器 反馈 通道 (Memory Response Channel): 主要 用 于 主 处 理 器 向 协 处 理 器 返回 存 
储 器 读 写 结果 。 

表 16-3 EAI 接口 信号 

m ë ^ g 


| Oupt | 1 |  eareqvalid | 主 处 理 器 向 协 处 理 器 发 送 指令 请 求 信号 

| mpt | 1 |  esreqrady | 协 处 理 器 向 协 处 理 器 返回 指令 接收 信号 
um | Oupu | 32 |  eaireqintr | 该 Custom 指令 的 32 比特 完整 编码 
DOD owu | 2 | cias |o t 

rmo 32 eai_req_rs2 源 操作 数 2 的 值 

Input | 1 | ——— eairp valid | 协 处 理 器 向 主 处 理 器 发 送 反馈 请 求 信号 

| Oupt | 1 |  eaimpredy | 主 处 理 器 向 协 处 理 器 返回 反馈 接收 信号 
— "TITTTN 

Lem | a | mmm am 
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续 表 
"ET 方向 信 号 名 介 绍 
| eai icb cmd valid 协 处 理 器 问 主 处 理 器 发 送 存储 器 读 写 请 求 信号 
Output | 1 | eai_icb_cmd_ready | 主 处 理 器 向 协 处 理 器 返回 存储 器 读 写 接收 信号 
—— ^om | 3 —— eai icb cmd addr 存储器 该 写 地 址 
| Input | 1 | eai icb cmd read 存储 器 读 或 是 写 的 指示 
ZITITIT. 


Dmm | 4 | ai om | SEE 


主 处 理 器 向 协 处 理 器 发 送 存储 器 读 写 反馈 请 求 
eai icb rsp valid 
信号 
协 处 理 器 向 协 处 理 器 返回 存储 器 读 写 反馈 接收 
存储 器 反馈 通道 eai icb rsp ready e 
E 


eai icb rsp rdata 存储 器 读 反馈 的 数据 


os MUT. HE 二 
Gus | mw | 1 | cimem hodo — | BEREETHSTHBUHEEREZUS 


16.3.3 EAI 流水 线 接口 


置 如 图 16-2 所 示 。 


整个 EAI 指令 的 执行 过 程 如 下 。 Eo | mm 
。 主 处 理 器 的 译 码 (Decode) 单元 在 EXU 级 对 指 ES | 


令 的 Opcode 进行 译 码 ， 判 断 其 是 否 属于 任意 一 
种 Custom 指令 组 。 

e。 如 果 主 处 理 器 译 码 判 断 该 指令 属于 Custom 指 

A, 则 继续 依据 指令 编码 的 xsl 和 xs2 位 判断 是 16-2 ”EAI 接口 协 处 理 器 
“ 香 需 要 读 取 源 寄存 器 。 如 需要 读 取 ， 则 在 EXU 在 流水 线 中 的 位 置 
级 读 取 通用 寄存 器 组 (Regfile) 读 出 源 操作 数 。 

e 主 处 理 器 会 维护 数据 依赖 的 正确 性 ， 壁 如 该 指令 需要 读 取 的 源 寄存 器 与 之 前 正在 执 
行 的 某 条 指令 存在 着 先 写 后 读 (RAW ) 的 依赖 性 , 则 处 理 器 流水 线 会 暂停 直至 该 RAW 
解除 。 另 外 ， 主 处 理 器 会 依据 指令 编码 的 xd 位 判断 该 Custom 指令 是 否 需要 写 回 结 
果 至 通用 寄存 器 组 ， 如 需要 写 回 ， 则 会 将 目标 寄存 器 的 索引 信息 存储 在 主 处 理 器 的 
流水 线 控 制 模块 中 ， 直 至 写 回 完 成 ， 以 便 供 后 续 的 指令 进行 数据 依赖 性 的 判断 。 

e 经 过 上 述 的 步骤 之 后 ， 主 处 理 器 在 EXU 级 通过 EAI 接口 的 请 求 通道 派发 给 外 部 的 
协 处 理 器 ， 派 发 的 信息 包括 指令 的 编码 信息 、 两 个 源 操作 数 的 值 〈 由 于 蜂鸟 E200 
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是 32 位 架构 ， 则 两 个 源 操作 数 均 为 32 位 宽 ) 和 该 指令 的 派发 标号 (Dispatch ITag )。 
在 10.2.3 节 中 曾经 介绍 过 蜂鸟 E200 处 理 器 属于 “ 乱 序 执行 -顺序 写 回 ”。 因 此 该 派发 
标号 主要 用 于 追踪 指令 的 派发 顺序 ， 协 处 理 器 收 到 ITag 后 需要 携带 该 TTag， 直 至 写 
回 结果 并 连同 ITag 返还 给 主 处 理 器 。 

。 上 协 处 理 器 通过 请 求 通道 接受 指令 之 后 ， 需 对 指令 做 进一步 的 译 码 ， 并 进行 实际 的 执 
行 操作 。 协 处 理 器 可 以 单 拍 便 返 回 结果 ， 也 可 以 多 拍 之 后 再 返回 结果 。 对 于 多 拍 返 
回 结果 的 指令 ， 其 行为 可 以 是 阻塞 式 的 ， 也 可 以 是 流水 线 式 。 由 于 协 处 理 器 和 主 处 
理 器 的 请 求 通道 采取 的 是 Valid-Ready 方式 的 同步 握手 接口 , 只 要 协 处 理 器 能 够 接受 
指令 ， 就 可 以 将 Ready 信号 拉 高 。 因 此 只 要 协 处 理 器 能 够 先后 连续 接受 多 条 指令 ， 
则 主 处 理 器 就 可 以 先后 连续 发 送 多 条 指令 至 协 处 理 器 。 

e。 协 处 理 器 在 完成 执行 后 ， 通 过 EAI 接口 的 反馈 通道 将 结果 反馈 给 主 处 理 器 。 如 果 协 
处 理 器 接受 并 执行 了 多 条 指令 ， 则 需要 保证 其 在 Response Channel 反馈 结果 的 顺序 
必须 与 其 在 请 求 通道 接受 指令 时 的 顺序 一 致 ， 即 按 序 写 回 ， 因 此 反馈 通道 需要 包括 
该 指令 的 ITag 并 遵循 其 顺序 。 如 果 是 需要 写 回 结果 的 指令 ， 则 反馈 通道 还 需 包含 返 
回 结果 的 值 。 

。 主 处 理 器 在 收 到 反馈 通道 的 反馈 结果 之 后 ， 则 将 此 次 指令 从 流水 线 中 退役 并 将 结果 
写 回 Regfile (WRES HAKR). Custom 指令 从 被 发 送 至 协 处 理 器 到 协 处 理 器 反馈 
结果 并 退役 之 间 的 这 段 时 间 ， 我 们 称 之 为 滞 外 指令 (Outstanding Instructions). 9&5, 
E200 处 理 器 最 多 仅 能 支持 不 超过 4 条 以 上 的 清 外 指令 。 因 此 如 果 协 处 理 器 是 流水 线 
执行 方式 ， 但 是 其 需要 超过 4 个 周期 以 上 才能 反馈 结果 ， 那 么 流水 线 会 出 现 空 泡 
CBubble)， 因 为 其 仅 能 从 主 处 理 器 收 到 4 条 指令 。 


16.3.4 EAI 存储 器 接口 


支持 协 处 理 器 访问 存储 器 资源 可 以 扩大 协 处 理 器 的 类 型 范围 , 使 得 协 处 理 器 不 仅 限于 运 
算 指令 类 型 。 在 处 理 器 的 LSU 模块 中 为 EAI 协 处 理 器 预 留 了 专用 的 访问 接口 ， 如 图 16-3 所 
示 。 因 此 基于 EAI 接口 的 协 处 理 器 可 以 访问 主 处 理 器 能 够 寻 址 的 数据 存储 器 资源 ， 包 括 
ITCM、DTCM、 系统 存 储 总 线 、 系 统 设 备 总 线 以 及 快速 IO 接口 等 。 
EAI 指令 访问 存储 器 资源 的 实现 机 制 如 下 。 
。 主 处 理 器 的 LSU 为 EAI 协 处 理 器 预 留 的 专用 访问 通道 基于 ICB 总 线 标准 。 
。 为 了 防止 后 续 指令 访问 存储 器 和 EAI 协 处 理 器 访问 存储 器 形成 竞争 死 锁 。 协 处 理 器 
在 接收 到 EAI 的 请 求 通道 发 送 过 来 的 指令 后 进行 译 码 ， 如 果 发 现 是 需要 访问 存储 器 
资源 的 协 处 理 器 指令 ， 则 需 立 即将 存储 器 独占 信号 拉 高 〈eai mem holdup)， 主 处 理 
器 将 会 阻止 后 续 的 指令 继续 访问 存储 器 资源 。 
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o 协 处 理 器 需要 访问 存储 右 是 通过 ICB 的 存储 器 请 求 通道 癌 主 处 理 器 的 LSU 发 起 请 求 。 
存储 器 请 求 通 道中 的 信息 包括 需要 访问 的 存储 器 地 址 , 访问 是 读 或 是 写 操作 。 如 果 是 读 
操作 ， 意 味 着 对 主 处 理 器 进行 32 位 对 齐 的 一 次 读 操 作 ; 如 果 是 写 操作 ， 则 通过 存储 器 
请 求 通道 中 的 写 数据 Cwdata) 和 字 节 掩 码 《wmask) 控制 写 操作 的 数据 和 粒度 。 







写 回 结果 至 Regfile 
LSU 返 回 结果 至 EAI 


DTCM 外 部 访问 接口 


ITCM 外 部 访问 接口 


图 16-3 LSU 为 EAI 预 留 专用 访问 通道 


o 主 处 理 器 的 LSU 在 完成 存储 器 读 写 操作 后 , 通过 ICB 的 存储 器 反馈 通道 同 协 处 理 器 
反馈 。 如 果 是 读 操 作 ， 存 储 器 反馈 通道 中 的 信息 包括 返回 的 读数 据 ， 和 本 次 读 操作 
是 否 发 生 了 错误 ; 如 果 是 写 操作 ， 存 储 器 反馈 通道 中 的 信息 仅 包 含 本 次 写 操作 是 否 
发 生 了 错误 。 

。 由 于 协 处 理 器 和 主 处 理 器 LSU 接口 的 ICB 总 线 采 取 的 是 Valid-Ready 方式 的 同步 握 
手 接口 ， 因 此 只 要 主 处 理 器 的 LSU 能 够 先后 连续 多 次 接受 存储 器 访问 操作 ， 则 协 处 
理 器 可 以 先后 连续 多 次 发 送 多 个 存储 器 读 写 请 求 。 

。 协 处 理 器 在 完成 对 存储 器 的 访 存 之 后 , 需 将 存储 器 独占 信号 拉 低 Ceai mem_holdup )， 
主 处 理 器 将 会 释放 LSU 人 允许 后 续 的 指令 继续 访问 存储 器 资源 。 


16.3.5 EAI 接口 时 序 


本 节 将 描述 EAI 接口 的 若干 典型 时 序 ， 以 帮助 读者 理解 EAI 接口 。 

。 主 处 理 器 向 协 处 理 器 通过 EAI 的 请 求 通 道 派 发 指令 ， 协 处 理 器 在 同一 个 周期 即 返回 
结果 ， 但 是 主 处 理 器 不 能 接收 ， 下 一 周期 才能 接收 此 结果 ， 如 图 16-4 Pros. 

。 主 处 理 器 向 协 处 理 器 通过 EAI 的 请 求 通道 派发 指令 ， 协 处 理 器 需要 多 个 周期 才能 返 
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回 结果 , 且 协 处 理 器 是 阻塞 式 的 , 因此 其 不 能 接受 新 的 指令 (将 eai req ready 拉 低 )， 
直至 其 通过 EAI 的 反馈 通道 返回 计算 结果 且 被 主 处 理 器 接收 ， 如 图 16-5 所 示 。 


EE “lm E ETET E 
eai req valid j \ 1 eai req valid R. f 
eai_req_ready = eal_req_ready / \ f / 
eo! req Inst 7 Z 
aai req rs eai req rsi 
A 7 Z 




















16-4 协 处 理 器 同一 周期 内 返回 结果 16-5 ” 协 处 理 器 阻塞 式 多 周期 返回 结 


。 主 处 理 器 同 协 处 理 器 通过 EAI 的 请 求 通道 派发 指令 ， 协 处 理 器 需要 4 个 周期 才能 返 
回 结果 。 但 协 处 理 器 是 非 阻 塞 式 的 ， 因 此 能 连续 接受 新 的 指令 〈 将 eai req ready 拉 
高 )， 直 至 其 通过 EAI 的 反馈 通道 返回 计算 结果 且 被 主 处 理 器 接收 ， 如 图 16-6 所 示 ， 
整个 过 程 无 空 泡 。 

。 主 处 理 器 向 协 处 理 器 通过 EAI 的 请 求 通 道 派 发 指令 ， 协 处 理 器 需要 8 个 周期 才能 返 
回 结 果 ， 但 协 处 理 器 是 非 阻塞 式 的 ， 因 此 能 连续 接受 新 的 指令 OCK eai req ready 拉 
高 )。 但 是 主 处 理 器 最 多 只 能 发 送 4 RMIG, Æ EAI 的 反馈 通道 返回 计算 结果 且 
被 主 处 理 器 接收 之 前 会 出 现 4 个 空 泡 周 期 ， 如 图 16-7 所 示 。 


AL AL a a a 
mn dl er 








bep 
图 16-6 协 处 理 器 非 阻 塞 式 16-7 协 处 理 器 非 阻塞 式 
连续 接收 4 条 指令 无 空 泡 周期 连续 接收 4 条 指令 有 空 泡 周期 


。 主 处 理 器 同 协 处 理 器 通过 EAI 的 请 求 通道 派发 指令 ， 协 处 理 器 译 码 出 该 指令 需要 访 
问 存 储 器 ， 则 将 存储 器 独占 信号 拉 高 (eai mem holdup)， 协 处 理 器 通过 存储 器 请 求 
通道 同 主 处 理 器 LSU 发 起 读 写 请 求 , 主 处 理 器 通过 存储 器 反馈 通道 在 下 一 个 周期 返 
回 结 果 ， 协 处 理 器 继而 将 存储 响 独 占 信 号 拉 低 ， 如 图 16-8 所 示 。 
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e 主 处 理 器 同 协 处 理 器 通过 EAI 的 请 求 通道 派发 指令 ， 协 处 理 器 译 码 出 该 指令 需要 访 
问 存 储 器 ， 则 将 存储 器 独占 信号 拉 高 (eai mem holdup)， 协 处 理 器 通过 存储 器 请 求 
通道 向 主 处 理 器 LSU 发 起 读 写 请 求 , 主 处 理 器 通过 存储 器 反馈 通道 在 多 个 周期 之 后 
返回 结果 ， 协 处 理 器 继而 将 存储 器 独占 信号 拉 低 ， 如 图 16-9 所 示 。 








eai icb cmd valid / \ j eai icb cmd valid [AMONT TA: , 
eai icb cmd ready / \ Á eai icb cmd ready / f 
77 eai icb cmd addr 77777777777 Xadd: (adr (addr 7 77,7 za 
eai icb rsp valid / \ 


eai icb rsp ready zi = 
eai icb rsp rdata ^77 77 77 77 





图 16-8 协 处 理 器 访问 存储 器 一 个 周期 返回 结果 16-9 ” 协 处 理 器 访问 存储 器 多 个 周期 返回 结果 


e 主 处 理 器 癌 协 处 理 器 通过 EAI 的 请 求 通道 派发 指令 ， 协 处 理 器 译 码 出 该 指令 需要 访 
问 存储 器 ， 则 将 存储 器 独占 信号 拉 高 (eai mem holdup)， 协 处 理 器 通过 存储 器 请 求 
通道 向 主 处 理 器 LSU 发 起 读 写 请 求 ， 主 处 理 器 通过 存储 器 反馈 通道 在 多 个 周期 之 后 
返回 结果 ， 但 是 结果 指示 读 写 存储 器 是 发 生 了 错误 ， 协 处 理 器 继而 将 存储 器 独占 信 
号 拉 低 ， 如 图 16-10 所 示 。 

。 主 处 理 器 同 协 处 理 器 通过 EAI 的 请 求 通道 派发 指令 ， 协 处 理 器 译 码 出 该 指令 是 个 非 
法 指令 ， 其 通过 反馈 通道 返回 错误 标志 ， 如 图 16-11 所 示 。 


oli 
eai req valid U y Radix d jJ 
eai req ready —— 了 





EE gr du 
eal rsp. wdat 7777777 wat 17777] 7772727. 
ZZ à LLL 





图 16-10 ” 协 处 理 器 访问 存储 器 多 个 周期 返回 错误 标志 图 16-11 协 处 理 器 非法 指令 返回 错误 标志 
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16.4 CAZA EEE] 


本 节 将 通过 参考 示例 ， 阐 述 蜂 乌 E200 处 理 器 如 何 使 用 EAI 接口 定义 并 实现 一 个 协 处 理 器 。 
注意 : 本 参考 示例 来 源 于 Rocket-Chip 开源 项 目的 一 个 协 处 理 器 教学 示例 。 


16.4.1 示例 协 处 理 器 需求 


假设 有 一 个 X 行 X 列 的 矩阵 按 顺 序 存 储 在 存储 器 中 , 矩阵 的 每 个 元 素 都 是 32 位 的 整数 ， 
如 图 16-12 所 示 (3 行 3 列 的 示例 矩阵 )。 需 要 对 该 矩阵 进行 如 下 操作 。 
e 计算 逐 行 的 累加 和 , HETA NIT, 因此 可 以 得 出 六 个 累加 的 结果 , 分 别 是 Rowsum1， 





Rowsum2，Rowsum3，...，Rowsum<N>。 
。 计算 逐 列 的 累加 和 ,由 于 有 M 列 , 因此 可 以 得 出 M 个 累加 的 结果 , 分 别 是 Colsuml, 
Colsum2, Colsum3, ..., Colsum<M>» 


如 果 采 用 第 规 的 程序 进行 计算 ， 则 需要 采用 循环 方式 ， 按 行 读 取 各 个 元 素 ， 然 后 将 各 个 
元 素 相 加 得 到 各 行 的 累加 和 ， 然 后 再 采取 循环 方式 ， 按 列 读 取 各 个 元 素 ， 然 后 将 各 个 元 素 相 
加 得 到 各 列 的 累加 和 ， 如 图 16-13 所 示 。 





1 2 3 
4 5 6 
7 8 9 

图 16-12 3X3 矩阵 图 16-13 C 语言 程序 计算 矩阵 行列 累加 和 


这 种 程序 转换 成 为 汇编 代码 需要 消耗 较 多 的 指令 条 数 ， 如 图 16-14 所 示 。 理 论 上 它 需 要 
完整 的 从 存储 器 中 读 取 和 矩阵 元 素 两 次 , 第 一 次 用 于 计算 行 累加 和 , 第 二 次 用 于 计算 列 累加 和 ， 
因此 需要 总 共 NXNX2 次 存储 器 读 操作 。 此 外 ， 程 序 还 需要 指令 参与 循环 控制 ， 累 加 计算 
等 。 假 设 和 N=3， 则 总 计 需 要 几 十 个 指令 周期 才能 完成 。 


16.4 ”蜂鸟 E200 的 协 处 理 器 参考 示例 | 287 





图 16-14 C 语 言 编译 所 得 汇编 程序 
164.2 示例 协 处 理 器 指令 


为 了 提 融 性 能 和 能 效 比 ， 可 以 将 此 和 窍 阵 操作 定义 成 为 协 处 理 器 指令 进行 加 速 。 如 表 16-4 
所 示 ， 定 义 了 3 条 指令 ， 分别 是 SETUP、ROWSUM 和 COLSUM. 


表 16-4 示例 协 处 理 器 指令 
协 处 理 器 指令 编码 

se。 Opcode 指明 使 用 Custom0 指令 组 

e xd 位 的 值 为 0， 表示 此 指令 并 不 需要 写 回 任何 结果 

e xsl 位 的 值 为 1， 表 示 此 指令 需要 读 取 操作 数 rs1。 操 作 数 rsl 的 值 为 


SETUP 指令 定义 矩阵 的 
大 小 ， 并 指明 存储 器 中 连 


SETUP P XI — | 连续 存储 矩阵 元 素 地 址 区 间 的 第 一 个 地 址 
续 存储 和 矩阵 元 素 地 址 区 | es a ' 
! e xs2 位 的 值 为 1， 表 示 此 指令 需要 读 取 操 作 数 rs2。 操 作 数 rs2 的 值 为 
间 的 第 一 个 地 址 HE , 
指示 和 矩阵 的 大 小 的 N fü 
e funct7 的 值 为 0， 该 值 编码 SETUP 指令 
ROWSUM 指令 指示 协 处 | 。 Opcode 指明 使 用 CustomO 指令 组 
理 器 计算 指定 行 的 累加 | e xd 位 的 值 为 1， 表示 此 指令 需要 通过 写 回 结果 至 rd 寄存 器 
值 ， 并 通过 结果 寄存 器 返 | 。 xsl 位 的 值 为 1， 表示 此 指令 需要 读 取 操作 数 rs1。 操 作 数 rsl 的 值 为 
ROWSUM 


回 累 加 值 ， 如 果 发 生 了 洲 | 指定 行 的 行 号 《从 1 开始 编号 ) 
出 ， 则 返回 32 位 整数 能 | 。 xs2 位 的 值 为 0， 表示 此 指令 不 需要 读 取 操作 数 rs2 
表示 的 最 大 饱和 值 e funct7 的 值 为 1， 该 值 编 码 ROWSUM 指令 
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续 表 
协 处 理 器 指令 a m" 
COLSUM 指令 指示 协 处 | 。 Opcode 指明 使 用 CustomO 指令 组 
理 器 计算 指定 列 的 累加 |e xd 位 的 值 为 1， 表示 此 指令 需要 通过 写 回 结果 至 rd 寄存 器 
值 ， 并 通过 结果 寄存 器 返 | 。 xsl 位 的 值 为 1， 表示 此 指令 需要 读 取 操作 数 rs1。 操 作 数 rsl 的 值 为 
BERIME, WRRET H | 指定 列 的 列 号 (从 1 开始 编号 ) 
出 ， 则 返回 32 位 整数 能 | 。 xs2 位 的 值 为 0， 表 示 此 指令 不 需要 读 取 操作 数 rs2 
表示 的 最 大 饱和 值 e funct7 的 值 为 2， 该 值 编码 COLSUM 指令 
注意 : 以 上 的 几 条 指令 需要 按照 特定 的 顺序 编写 
。 首先 使 用 SETUP 指令 指定 矩阵 的 大 小 及 相关 参数 
。 然后 使 用 多 条 ROWSUM 指令 分 别 计算 各 行 的 累加 和 
。 最 后 使 用 多 条 COLSUM 指令 分 别 计算 各 列 的 累加 和 


16.4.3 zm BUTS ER SCIEN 


示例 协 处 理 器 的 硬件 实现 框图 如 图 16-15 所 示 ， 其 主要 由 控制 模块 和 累加 模块 组 成 。 控 
制 模块 主要 负责 和 主 处 理 器 的 EAI 接口 交互 ， 并 调用 累加 器 进行 累加 运算 。 
累加 器 框图 如 图 16-16 所 示 ， 其 主要 负责 累加 运算 。 







COLSUM 










EAI 反馈 通道 
(Response Channel) 


EAI 请 求 通道 
(Request Channel) 





图 16-15 示例 协 处 理 器 控制 模块 框图 16-16 示例 协 处 理 器 累加 器 模块 框图 
示例 协 处 理 器 实现 方案 的 处 理 过 程 如 表 16-5 所 示 。 
表 16-5 示例 协 处 理 器 实现 方案 
5 又 指令 行为 硬件 行为 


使 用 SETUP 指令 指定 需要 运算 
步 桑 1 UT be 控制 模块 使 用 参数 设置 合适 的 行为 
的 矩阵 参数 
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续 表 
步 又 指令 行为 硬件 行为 
e 为 了 能 够 复 用 读 取 的 数据 , 在 硬件 模块 中 分 配 一 个 行 大 小 的 寄存 器 缓 
冲 〈Buffer)， 称 之 为 buf row， 用 于 存储 上 一 次 处 理 的 行 的 元 素 值 
。 ROWSUM 指令 将 触发 协 处 理 器 从 存储 器 地 址 中 逐个 读 取 该 行 的 元 素 
值 ， 且 每 次 读 取 回 来 的 数值 被 送 给 累加 器 进行 累加 ， 完 全 读 取 N 个 元 素 
使 用 多 条 ROWSUM 指令 分 别 计 | 后 的 累加 结果 即 为 该 行 的 累加 和 
算 各 行 的 累加 和 。 从 第 二 行 开始 , 每 次 读 取 回 来 的 数值 不 仅 需 要 使 用 累加 器 计算 该 行 的 
累加 值 ， 还 需 使 用 新 读 取 的 数据 和 上 一 行 的 数据 (存储 在 buf. row 之 中 ) 
累加 ， 并 且 将 结果 继续 暂 存 在 buf row 之 中 
e. 经 过 六 个 ROWSUM 指令 之 后 , 不 仅 每 行 的 累加 和 已 经 被 计算 出 , 而 
且 每 一 列 的 票 加 和 也 被 计算 出 存储 在 buf row 之 中 
s 由 于 在 步骤 2 中 已 经 计算 出 了 各 列 的 累加 和 ， 人 存储 在 buf row 之 中 。 
因此 本 步骤 无 需 任 何 的 存储 器 访问 和 计算 操作 ， 直 接 从 buf row 中 取出 
所 需 的 计算 结果 即 可 


步骤 2 


使 用 多 条 COLSUM 指令 分 别 计 
算 各 列 的 累加 和 


步骤 3 





以 图 16-12 中 的 矩阵 实例 为 例 ， 使 用 协 处 理 器 后 整个 计算 过 程 的 数值 如 表 16-6 所 示 。 
表 16-6 示例 协 处 理 器 计算 过 程 的 数值 


EE B 
owman | 6 | 3 | * | 3 | 3 
ROWSUM 4itgfi | u | 3 | 3 | 7 | 5 
Rows | 2 | —3 | 8 | 5 | 5 
corses ma | m | 0 | 1 | 5 | 
corsen | ws | — 0 | 8 | 5 | i 
Cosmomns eme | w | — 0 | m | ws | 5 


16.4.4 zs DITS SR TE BÉ 


以 图 16-12 中 的 矩阵 实例 为 例 ， 理 论 分 析 示 例 协 处 理 器 的 性 能 如 下 。 

。 SETUP 指令 可 以 在 一 个 周期 内 完成 。 

。 假设 矩阵 存储 在 DTCM 区 间 内 ， 可 以 通过 一 个 周期 从 DTCM 中 读 回 一 个 矩阵 元 素 ， 
则 计算 第 一 行 的 累加 和 需要 3 个 时 钟 周 期 访问 3 个 存储 器 地 址 ， 采 用 流水 线 的 方式 
连续 读 取 和 运算 〈 读 取 一 个 元 素 后 的 累加 计算 和 下 一 次 读 取 操 作 重 登 )， 则 总 共 需 要 
4 个 周期 完成 第 一 行 的 ROWSUM 指令 。 

。 从 第 二 行 开始 ， 不 仅 需 要 计算 该 行 的 累加 和 ， 还 需要 累加 计算 得 到 row buf 中 每 一 
列 的 部 分 累加 和 ， 因 此 需要 额外 的 3 个 周期 ， 则 总 共 需 要 7 个 周期 完成 第 二 行 和 第 
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三 行 的 ROWSUM 指令 。 
e 每 一 个 COLSUM 指令 可 以 直接 从 row buf 中 取出 计算 结果 ,可 以 在 一 个 周期 内 完成 。 
e 综 上 ， 完 成 全 部 操作 需要 7 条 指令 ，1+4+7+7+1+1+1=22 个 时 钟 周期 完成 。 
与 普通 的 C 语言 程序 实现 相 比 的 性 能 对 比如 表 16-7 所 示 ， 在 性 能 和 能 效 比方 面 就 能 带 


3 3 一 5 倍 的 提升 。 
表 16-7 使 用 示例 协 处 理 器 与 不 使 用 之 性 能 对 比 


16.4.5 示例 协 处 理 器 代码 


示例 协 处 理 器 的 代码 包括 两 部 分 内 容 。 

e 示例 协 处 理 器 的 Verilog RTL 实现 代码 。 

e 使 用 协 处 理 器 指令 的 软件 代码 。 

本 书 在 此 不 予 详 述 其 代码 ， 有 兴趣 的 读者 可 以 目 行 答 试 实现 或 者 联系 作者 。 


第 三 部 分 


rilog 进行 仿真 和 在 FPGA 
SoC 原型 上 运行 软件 


第 17 章 冒 个 烟 先 一 一 运行 Verilog 仿真 


测试 

第 18 章 ” 套 上 克 子 上 路 一 一 实现 SoC 
FPGA 原型 

第 19 章 画龙点睛 一 一 运行 和 调试 软件 
示例 


第 20 章 是 又 子 是 马 ? DB — 
运行 跑 分 程序 








$1728 冒 个 烟 先 


一 一 运行 Verilog 仿真 测 i 
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本 章 将 介绍 E200 开源 平台 如 何 运 行 Verilog 仿真 测试 。 注意 : 为 了 能 够 跟随 本 章 介绍 的 
内 容重 现 相 关 仿 真 环境 ， 需 要 具备 Linux 命令 行 以 及 Makefile 脚本 的 基本 知识 。 


17.1 BZ Fl ni 
蜂鸟 E200 的 开源 平台 托管 于 著名 开源 网 站 GitHub. GitHub 是 一 个 著名 的 免费 项 目的 托 


管 网 站 , 任何 用 户 无 须 注 册 即 可 从 网 站 上 下 载 源 代码 , 很 多 的 开源 项 目 均 将 源 代码 托管 于 此 ， 
E200 的 项 目 网 址 请 在 GitHub 中 搜索 “e200_opensource”， 如 图 17-1 所 示 。 





k- SI-RISCV / e200 opensource 
€» Code D Issues D i? Pull requests 9 Pi Projects © Ei Wiki 


The Ultra-Low Power RISC Core 


nery ultra-ow-powet quu tore thina venibg Manage DPC 


fp commits P1 branch $5 0 releases AA 1 contributor eb Apache-20 


Srnci master ™ New pull request Create new fle — Upload files — Find fle Clone or downioad * 


[71 zhenbohu uponte doc Latest commit 0c225d5 on 11 Oc 
ilu doc update doc a month ago 
in 外 33 1«t offical releso a month ago 
ii scy-tools Ist official release a month ago 
Mn 1/6203 1et officsal releacs a month ago 
iij sirv-e-sok update the start.S to check if the program i5 set at NUM (not flash). 8 month ago 
in 让 fix a typo in tb a month ago 
im vsim 1st official releaso à month sgo 


$ itgneors 1«t official release a month ago 


E LICENSE upload e203 RTL codes with copyright notice and LICENSE 2 months ago 





国 README md update README a month ago 


图 17-1 蜂鸟 E200 开源 GitHub 网 址 


在 该 网 址 的 e200_ opensource 目录 下 ， 文 件 的 层次 结构 如 下 所 示 。 


e200 opensource 


|----rtl // 存放 RTL 的 目录 

|----e203 // E203 核 和 SocC 的 RTL 目录 
|----general // 存放 一 些 公 用 的 通用 RTL 代码 
|----core // 存放 e203 Core 的 RTL 代码 
|----fab // 存放 总 线 bus fabric 的 RTL 代码 
| ----subsys // 存放 完整 子 系统 顶层 的 RTL 代码 
| ----mems // 存放 memory 模块 的 RTL 代码 
| ----perips // 存放 外 设 peripherals 模块 的 RTL 代码 
| = 一 一 一 和 et // 存放 debug 相关 模块 的 RTL 代码 
|----fpga // 存放 FPGR 实现 的 RTL 代码 


二 // 存放 Verilog TestBench 【测试 平台 ) 的 目录 
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|----tb top.v // 简单 的 Verilog TestBench 顶层 文件 
----vysim // 运行 仿真 的 目录 

|----bin // 存放 脚本 的 文件 夹子 
|----Makefile // 运行 的 Makefile 
|----run // 运行 目录 

|----fpga // 存放 FPGA 项 目 和 脚本 的 目录 

|----riscv-tools // 存放 所 需 riscv-tools 的 目录 
|----riscv-fesvr // 用 于 编译 指令 模拟 器 Spike 的 源 代码 
|----riscv-isa-sim // 用 于 编译 指令 模拟 器 Spike 的 源 代码 
|----riscv-tests // 存放 一 些 测 试用 例 的 目录 

| ----doc // 保存 文档 的 目录 

| ----README .md // 说 明文 件 

rtl 目录 下 包含 了 大 量 的 源 代码 ,主要 为 目前 开源 Core( 璧 如 E203) 和 配套 SoC 的 Verilog 


RTL 源 代码 文件 。 

有 关 E201/E203/E205 处 理 器 核 的 区 别 请 参见 第 4.3 节 中 关于 蜂鸟 E200 系列 的 简介 ， 每 
个 处 理 器 核 有 一 个 专属 的 文件 夹 目录 存放 期 Verilog RTL 源 代码 。 关 于 处 理 器 核 部 分 的 具体 
代码 列表 请 参见 第 5.5 WER, MER SoC 的 信息 和 代码 列表 请 参见 第 18.2.2 节 。 


17.2 EEEN 


读者 可 能 注意 到 在 上 节 中 所 述 的 risev-tools E; RISC-V 架构 正式 维护 的 riscv-tools 项 目 
同名 (请 在 GitHub 中 搜索 “riscvAriscv-tools”)。 正 式 维护 的 riscv/risev-tools 目录 下 包括 了 所 
有 的 RISC-V 所 需 的 软件 工具 ， 其 中 主要 是 GNU ToolChain 〈 源 文件 超过 1G， 因 此 下 载 需要 
相当 长 的 时 间 )。 

e200 opensource 项 目 目录 下 的 riscv-tools 目录 仅 包 含 编译 Spike 所 需 的 源 代 码 和 
riscv-tests ， 放置 该 目录 于 此 是 因为 正式 维护 的 riscvriscv-tools 在 不 断 更 新 ， 而 
e200 opensource 下 的 riscv-tools 仅 用 于 支持 运行 自 测试 用 例 , 因此 无 须 使 用 最 新 版 本 。 此 外 ， 
还 进行 了 适当 修改 (譬如 , 在 riscv-tests 里 面 添 加 了 更 多 的 测试 用 例 ,， 生成 更 多 的 log 文件 )， 
同时 去 除了 GNU ToolChain， 使 得 文件 夹 很 小 ， 方 便 读者 快速 下 载 使 用 。 


17.2.1 riscv-tests 自 测 试用 例 


所 谓 自 测试 用 例 〈Self-Check Testcase)， 是 一 种 能 够 自我 检测 运行 成 功 还 是 失败 的 测试 
程序 。riscv-test 是 由 RISC-V 架构 开发 者 维护 的 开源 项 目 ， 包 含 一 些 测试 处 理 器 是 否 符合 指 
令 集 架构 定义 的 测试 程序 ， 这 些 测试 程序 均 由 汇编 语言 编写 。 

注意 : e200 opensource 下 的 riscv-tests 目录 复制 于 原始 的 riscv-test MH GAE GitHub 





17.2 E200 开 源 项 目的 测试 用 例 | 295 


中 搜索 “risev/riscv-tests”)， 在 此 基础 上 添加 了 更 多 的 测试 用 例 和 生成 更 多 的 log 文件 。 

此 类 汇编 测试 程序 里 用 某 些 宏 定义 组 织 成 程序 点 ， 测 试 指令 集 架构 中 定义 的 指令 ， 如 
图 17-2 所 示 。 测 试 add 指令 ( 源 代码 文件 为 isa/rv64ui/add.S)， 通 过 让 add 指令 执行 两 个 数 
据 的 相 加 (和 壁 如 0x0000003 和 0x00000007)， 设 定 它 期 望 的 结果 〈 璧 如 0x0000000a)。 然 后 
使 用 比较 指令 加 以 判断 , 假设 add 指令 的 执行 结果 的 确 与 期 望 的 结果 相等 , 则 程序 继续 执行 ; 
假设 与 期 望 的 结果 不 相等 ， 则 程序 直接 使 用 jump 指令 跳 到 TEST FAIL 地 址 ; 假设 所 有 的 测 
试点 都 通过 ， 则 程序 一 直 执行 到 TEST PASS 地 址 。 





图 17-2 riscv-tests 测试 用 例 测 试 add 指令 片段 


TE TEST PASS 的 地 址 ， 程 序 将 设置 x3 寄存 器 的 值 为 1， 而 在 TEST FAIL 的 地 址 ， 程 
序 将 x3 寄存 器 的 值 设 置 为 非 1 值 。 因 此 ， 最 终 可 以 通过 判断 x3 的 值 来 界定 程序 的 运行 结果 
到 底 是 成 功 还 是 失败 。 


17.2.2 编译 ISA 目测 试用 例 


riscv-tests 中 的 指令 集 染 构 (ISA) 测试 用 例 都 是 使 用 汇编 语言 编写 ， 为 了 在 仿真 阶段 能 
够 被 处 理 器 执行 ， 需 要 将 这 些 汇编 程序 编译 成 二 进 制 代 码 。 在 e200 opensource 的 以 下 目录 
(generated XF) 下 ， 已 经 预先 上 传 了 一 组 编译 完毕 的 可 执行 文件 和 反 汇 编 文 件 ， 以 及 能 
够 被 Verilog 的 readmemh 函数 读 入 的 文件 。 


e200 opensource 
|----riscv-tools // 存放 所 需 riscv-tools 的 目录 
|----riscv-tests // 存放 一 些 测试 用 例 的 目录 


|----isa 
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----generated // 编译 好 的 tests 文件 夹 
|----rv32ui-p-addi // 编译 出 的 elf 文件 
| ----rv32ui-p-addi.dump // 反 汇 编 文件 
|----rv32ui-p-addi.verilog // 可 被 Verilog 的 readmemh 
// 函数 读 入 的 文件 





壁 如 ， 反 汇编 文件 〈( 壁 如 rv32ui-p-addi.dump) 的 内 容 如 图 17-3 所 示 。 
譬如 ，Verilog 的 readmemh 函数 能 够 读 入 的 文件 〈 璧 如 rv32ui-p-addi.verilog) 内 容 如 
图 17-4 所 示 。 
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图 17-3 反 汇 编 文 件 内 容 片 段 图 17-4 Verilog 的 readmemh 函数 


可 读 入 文件 内 容 片 段 


用 户 如 果 修 改 了 汇编 程序 的 源 代码 需要 重新 编译 ,遵循 以 下 步骤 , 编译 出 的 文件 将 被 重 
新 生成 在 e200 opensource/ riscv-tools/ riscv-tests/isa/generated 目录 中 。 
// 注意 : 下 列 步 又 的 完整 描述 也 被 记载 于 e200 opensource 项 目的 aoc 目录 中 的 


| SoC Quick Start Guide 文档 ， 以 便于 读者 直接 复制 进行 重 现 。 

| // 步骤 一 : 准备 好 自己 的 电脑 环境 , 可 以 在 公司 的 服务 器 环境 中 运行 ， 如 果 是 个 人 用 户 , 推荐 如 下 配置 。 

| (1) 使 用 VMware 虚拟 机 在 个 人 电脑 上 安装 虚拟 的 Linux 操作 系统 。 

| (2) 由 于 Linux 操作 系统 的 版 本 众多 ， 推 荐 使 用 Ubuntu 16.04 版 本 的 Linux 操作 系统 。 

| 有 关 如 何 安装 VMware 以 及 Ubuntu 操作 系统 本 书 不 做 介绍 ， 有 关 Linux 的 基本 使 用 本 书 
也 不 做 介绍 ， 请 读者 自行 查阅 资料 学 习 。 
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// 步骤 二 : 为 了 防止 后 续 步 骤 中 出 现 错误 ， 预 先 最 好 将 很 多 工具 包 先 安装 在 Ubuntu 16.04 系统 中 ， 
使 用 如 下 命令 。 


sudo apt-get install autoconf automake autotools-dev curl device-tree-compiler 
libmpc-dev libmpfr-dev libgmp-dev gawk build-essential bison flex texinfo 
gperf libtool patchutils bc zliblg-dev 


// FRZ: T$ e200 opensource 项 目下 载 到 本 机 Linux 环境 中 ， 使 用 如 下 命令 。 


git clone https://github.com/SI-RISCV/e200 opensource.git 
// 经 过 此 步骤 将 项 目 克隆 下 来 ， 本 机 上 即 可 具有 如 第 17.1 节 中 所 述 完整 的 


// e200 opensource 目录 文件 夹 ， 假 设 该 目录 为 <your e200 dir>， 后 文 将 使 用 该 缩 
// SHR. 


// 步骤 四 : 由 于 编译 汇编 程序 需要 使 用 到 GNU LRH, 假设 使 用 完整 的 riscv-tools 来 自己 编译 GNU 
工具 链 则 费时 费力 ， 因 此 本 书 推荐 使 用 预先 已 经 编译 好 的 Gcc 工具 链 。 作 者 已 经 将 工具 链 上 传 至 网 盘 ， 网 盘 
具体 地 址 记载 于 e200 opensource H prebuilt tools 目录 的 README 中 。 用 户 可 以 在 网 盘 中 的 

“RISC-V Software Tools/RISC-V GCC 201801 Linux” 目 录 下 载 压缩 包 
gnu-mcu-eclipse-riscv-none-gcc-7.2.0-2-20180111-2230-centos64 .tgz, 然后 按照 如 下 步骤 
解压 使 用 (注意: 上述 链接 网 盘 上 的 工具 链 可 能 会 不 断 更 新 ， 读 者 请 注意 自行 判断 使 用 最 新 日 期 的 版 本 ， 下 
列 步 骤 仅 为 特定 版 本 的 示例 ) 。 


cp gnu-mcu-eclipse-riscv-none-gcc-7.2.0-2-20180111-2230-centos64.tgz -/ 
// 将 压缩 包 复制 到 用 户 的 根 目录 下 


cd ~/ 
tar -xzvf gnu-mcu-eclipse-riscv-none-gcc-7.2.0-2-20180111-2230-centos64.tgz 


// 进入 根 目录 并 解压 该 压缩 包 ， 解压 后 可 以 看 到 一 个 生成 的 gnu-mcu-eclipse 文件 夹 


cd <your e200 dir>/ 


// 进入 到 e200 opensource 的 目录 文件 夹 


mkdir -p ./riscv-tools/prebuilt tools/prefix/bin 


// Œ e200 opensource 目录 下 创建 上 述 这 个 bin 目录 


cd ./riscv-tools/prebuilt tools/prefix/bin/ 


// 进入 到 这 个 新 建 的 bin 目录 下 


ln -s -/gnu-mcu-eclipse/riscv-none-gcc/7.2.0-2-20180111-2230/bin/* . 


// 将 用 户 根 目录 下 解压 压缩 包 中 bin 目录 下 的 所 有 可 执行 文件 作为 软 链接 链接 到 
// 该 ./riscv-tools/prebuilt tools/prefix/bin/H3KF 


// 步骤 五 : 在 接 下 来 的 步骤 中 可 能 会 出 现 如 下 错误 。 
"Syntax error:Bad fd number" 


// 这 个 错误 可 能 是 由 于 在 Ubuntu 16.04 中 ， /bin/sh 被 链接 到 了 /bin/dash 而 不 
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// 是 /bin/bash. 如 果 果 真如 此 ， 可 以 用 以 下 命令 进行 修改 。 
sudo mv /bin/sh /bin/sh.orig 
sudo ln -s /bin/bash /bin/sh 


// 步骤 六 : 使 用 如 下 命令 编译 出 Spike (指令 模拟 器 ) 和 riscv-tests. 


cd «your e200 dir»/riscv-tools 


// 进入 到 e200 opensource 目录 下 的 riscv-tools 文件 夹 


./build-e200-spike-rvtests.sh 
// 运行 该 脚本 将 编译 出 指令 模拟 器 Spike fl riscv-tests. 
// 如 果 运 行 该 步骤 没有 出 现 错误 ， 那 么 一 个 可 执行 文件 spike 将 被 生成 在 
// «your e200 dir»/riscv-tools/prebuilt tools/prefix/bin/ 目录 下 ， 
// 一 些 相关 的 库 文件 也 
// 将 被 生成 在 <your e200 dir>/riscv-tools/prebuilt tools/prefix/ 
// 目录 下 。 
// 可 以 通过 在 <your e200 dir>/riscv-tools/prebuilt tools/prefix/bin/ 
// 目录 下 运行 “./spike -h" 来 确认 此 spike 是 否 能 够 被 正确 执行 。 


// PRE: 在 以 下 文件 目录 下 可 运行 以 下 命令 ， 编 译 出 的 文件 将 被 重新 生成 在 e200 opensource/ 

riscv-tools/riscv-tests/isa/generated 目录 中 。 
e200 opensource 
| 7---riscv-tools 
|[7----riscv-tests 
|----isa // 在 该 目录 下 运行 命令 source regen.sh 
|7--- regen.sh 

注意 : 如 果 用 户 没 有 修改 任何 的 汇编 test 的 源 代码 ， 直 接 运行 此 ”source regen.sh"Hj, Makefile 
认为 没有 更 新 ， 什 么 都 不 用 做 (显示 “make: Nothing to be done for default”) 。 如 果 用 户 修改 了 代 
码 , 假设 用 户 修 改 了 上 文中 提 到 的 isa/rv64ui/add.s 汇编 测试 代码 (必须 同时 也 修改 isa/rv32ui/add.S 
代码 ， 在 其 中 随便 添加 一 个 空格 ,否则 Makefile 的 依赖 关系 无 法 追踪 间接 include 的 源 代码 改动 ) ， 那 么 
运行 “source regen.sh” 后 ， 在 generated 目录 下 的 相关 rv32ui-p-addi* 文 件 将 会 被 重新 生成 。 


17.3 ZUNE HAT 


在 e200_opensource 的 如 下 目录 已 经 创建 了 一 个 简单 的 由 Verilog 编写 的 TestBench 测试 





FS. 
e200_opensource 
|----tb // 存放 Verilog TestBench (测试 平台 ) 的 目录 
|----tb top.v // 简单 的 Verilog TestBench 顶层 文件 
在 测试 平台 中 主要 的 功能 如 下 。 


e 例 化 DUT 文件 ， 生 成 clock 和 reset 信号。 
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— o 


。 根据 运行 命令 解析 出 测试 用 例 的 名 称 ， 并 使 用 Verilog 的 readmemh 函数 读 入 相应 的 
X fF CEU rv32ui-p-addi.verilog) 内 容 ， 然 
后 使 用 文件 中 的 内 容 初始 化 ITCM (由 
Verilog 编写 的 二 维 数组 充当 行为 模型 )， 如 
图 17-5 所 示 。 

。 在 运行 结束 后 分 析 该 测试 用 例 是 行 成 
功 , 在 Testbench 的 源 文 件 中 对 x3 AP 
值 进 行 判 断 ， 如 果 x3 的 值 为 1， 则 意味 着 ' 
通过 ,向 终端 上 将 打印 PASS 字样 ,否则 将 。 "5 e Verilog A readmemih 
打印 FAIL 人 字样， 如 图 17-6 所 示 。 








图 17-6  Testbench 中 打印 测试 用 例 的 结果 


17.4 RM le NEE: Dey: 


感 兴趣 的 读者 大 和 硕 望 能 够 运行 仿真 测试 程序 ， 可 以 使 用 如 下 步骤 进行 。 


// 注意 : 下 列 步骤 的 完整 描述 也 被 记载 于 e200 opensource 项 目的 doc 目录 中 的 SoC Quick Start 
| Guide 文档 ， 以 便于 读者 直接 复制 进行 重 现 。 





// 步骤 一 : 准备 好 自己 的 电脑 环境 , 可 以 在 公司 的 服务 器 环境 中 运行 ， 如 果 是 个 人 用 户 , 推荐 如 下 配置 。 
| (1) 使 用 VMware 虚拟 机 在 个 人 电脑 上 安装 虚拟 的 Linux 操作 系统 。 
| (2) 由 于 Linux 操作 系统 的 版 本 众多 ， 推 荐 使 用 Ubuntu 16.04 版 本 的 Linux 操作 系统 
有 关 如 何 安 装 VMware 和 Ubuntu 操作 系统 本 书 不 做 介绍 ， 有 关 Linux 的 基本 使 用 本 书 
也 不 做 介绍 ， 请 读者 自行 查阅 资料 学 习 。 
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// 步骤 二 : 将 e200_opensource 项 目下 载 到 本 机 Linux 环境 中 ， 使 用 如 下 命令 。 


git clone https://github.com/SI-RISCV/e200 opensource.git 
// 经 过 此 步骤 将 项 目 克隆 下 来 ， 本 机 上 即 可 具有 如 第 17.1 节 中 所 述 完整 的 
// e200 opensource 目录 文件 来， 假设 该 目录 为 <your e200 _dir>， 后 文 将 使 用 该 缩 
// 号 指 代 。 


// PRIZ: W RTL 代码 ， 使 用 如 下 命令 。 


cd «your e200 dir»/vsim 


// 进入 到 e200 opensource 目录 文件 夹 下 面 的 vsim 目录 。 


make install CORE-e203 
// 运行 该 命令 指明 需要 为 e203 进行 编译 ， 该 命令 会 在 vsim 目录 下 生成 一 个 install 
// 子 文件 夹 ， 在 其 中 放置 所 需 的 脚本 ， 且 将 脚本 中 的 关键 字 设 置 为 e203。 


make compile 
// 编译 Core fll soc 的 RTL 代码 
// 注意 : 在 此 步骤 之 中 , 编译 Verilog 代码 需要 使 用 到 仿真 器 工具 , 在 E200 的 Makefile 
// 中 使 用 的 是 开源 免费 的 iverilog 工具 ， 如 图 17-7 所 示 。 
// 对 于 开源 免费 的 iverilog 工具 如 何 安装 请 读者 在 互联 网 上 自行 搜索 。 


// 步骤 四 : 运行 默认 的 一 个 testcase (测试 用 例 ) ， 使 用 如 下 命令 。 

make run test 
// 注意 : 在 此 步骤 中 ， 运 行 仿真 需要 使 用 仿真 器 工具 ， 在 开源 的 Makefile 中 此 部 分 空缺 ， 
// 实际 运行 的 是 “echo PASS”“ 命 令 打 印 一 个 虚假 的 PASS 到 1og 文件 中 , 如 图 17-7 所 示 。 
by 
// 注意 : make run test 将 运行 e200 opensource/riscv-tools/ 
// riscv-tests/isa/generated 目录 中 的 一 个 默认 testcase， 如 果 希 望 运行 所 有 的 
// 回归 测试 ， 请 参见 步骤 五 。 


// 步骤 五 ;运行 回归 (regression) 测试 集 ， 使 用 如 下 命令 。 

make regress run CORE-e203 
// 该 命令 使 用 e200 opensource/riscv-tools/riscv-tests/isa/generated 
// 目录 中 E203 Core HJ testcases, ZARZ AA testcase. 


// 步骤 六 : 查看 回归 测试 结果 。 

make regress collect CORE-e203 
// 该 命令 将 收集 步骤 五 中 运行 的 测试 集 的 结果 ， 将 打印 若干 行 的 结果 ， 每 一 行 对 应 一 个 测 
// 试用 例 ， 如 果 那 个 测试 用 例 运 行 通过 ， 那 一 行 则 打印 的 PASS; 如 果 运 行 失败 ， 那 一 行 则 
// 打印 的 FAIL， 如 图 17-8 Bran. 
/ / 
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图 17-7 仿真 工具 的 设置 





图 17-8 ”运行 回归 测试 的 结果 示例 
注意 : 以 上 回归 测试 只 是 运行 riscv-tests 中 提供 的 非常 基本 的 目测 试 汇 编程 序 ， 并 不 能 
达到 充分 验证 处 理 嚣 核 的 效果 。 因 此 ， 如 果 用 户 修 改 了 处 理 需 的 Verilog 源 代 码 而 仅 运 行 以 
上 的 回归 测试 ， 可 能 无 法 保证 处 理 器 的 功能 完备 正确 性 。 
处 理 器 的 验证 不 同 于 第 规 的 数字 电路 验证 ， 对 于 一 个 处 理 器 核 的 充分 验证 ， 除 了 使 用 常 
规 的 验证 方法 学 之 外 ， 还 需要 使 用 非常 多 的 特殊 专业 手段 ， 消 耗 相当 大 的 工作 量 。 关 于 人 处理 
锋 验 证 技术 的 讨论 超出 了 本 书 的 范畴 ， 本 书 在 此 不 做 过 多 论述 。 
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仅仅 一 个 处 理 器 核 无 法 真正 运行 ， 就 像 一 辆 汽车 只 有 发 动机 是 无 法 行驶 的 ， 需 要 给 它 套 
上 壳 子 、 安 上 轮子 才能 上 路 。 对 于 一 个 处 理 器 核 ， 还 需要 配套 SoC 才能 具备 完整 的 功能 。 
本 章 将 介绍 一 款 开 源 的 Freedom E310 SoC， 并 介绍 蜂鸟 E200 处 理 器 配套 的 SoC， 以 及 如 何 
在 FPGA 上 实现 该 SoC 原型 。 


18.1 Ex: E310 SocC 简介 


在 介绍 Freedom E310 SoC 平台 之 前 ， 在 此 先 介 绍 Freedom E300 平台 。 

Freedom E300 平台 由 SiFive 公司 推出 ，SiFive 公司 是 由 美国 加 州 大 学 伯克利 分 校 发 明 
RISC-V 架构 的 几 个 主要 发 起 人 创办 的 商业 公司 ,力图 加 速 RISC-V 的 商业 化 进程 与 生态 的 推广 。 

SiFive 公司 目前 已 经 发 布 了 几 球 RISC-V 架构 的 商用 处 理 器 核 IP, 还 发 布 了 几 球 SoC F 
台 系 列 。 其 中 ，Freedom Everywhere 是 一 款 可 配置 的 RISC-V SoC 家 族 系 列 ， 主 要 面向 低 功 
耗 的 嵌入 式 MCU 领域 。 而 E300 平台 是 Freedom Everywhere SoC 家 族 系 列 中 的 第 一 款 SoC 
平台 ， 关 于 Freedom Everywhere E300 平台 的 具体 信息 ， 请 在 SiFive 的 官方 网 址 中 无 须 注 
AD 下 载 其 技术 手册 “SiFive-E300-platform-reference-manual.pdf ”。 

Freedom Everywhere E310-G000 简称 Freedom E310) 是 使 用 Freedom Everywhere E300 
平台 配置 出 的 一 款 特定 配置 SoC，SiFive 将 此 SoC 的 代码 完全 开源 ， 读 者 可 以 在 GitHub 中 
搜索 “freedom ”来 下 载 其 源 代码 。Freedom E310 SoC 基于 Rocket Core, 架构 配置 为 RV32IMAC 
架构 ， 配 备 16KB 的 指令 Cache 与 16KB 的 数据 SRAM (Scratchpad )、 硬 件 乘 除法 器 、 调 试 
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图 18-1 Freedom 310 SoC 结构 图 
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基于 Freedom E310 SoC, SiFive 公司 使 用 TSMC CL018G 180nm 工艺 成 功 流 片 (Tapeout) 


生产 出 实际 已 片 ， 能 够 运行 到 320MHz 以 上 的 主 频 。 基 于 此 忌 片 ，SiFive 公司 开发 制造 了 一 
款 信 用 卡 大 小 的 硬件 开发 板 HiFivel， 如 图 18-2 所 示 。HiFivel 开发 板 是 目前 市 场 上 最 早 的 


在 售 RISC-V 硬件 开发 板 ， 已 经 被 很 多 RISC-V 的 公司 与 爱好 者 使 用 。 
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图 18-2 HiFivel 开发 板结 构图 
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18.2.1 HBird-E200-SoC 组 成 结构 
Freedom E310 是 一 于 非常 优秀 的 SoC， 非 常 感谢 SiFive 公司 将 其 开源 。E200 开源 项 目 


也 是 以 Freedom E310 SoC 为 参考 蓝本 ,在 其 基础 上 进行 二 次 开发 成 为 E200 配套 的 SoC, 其 


中 主要 做 了 如 下 主要 修改 。 
将 Rocket Core 蔡 换 成 为 蜂 乌 E200 处 理 器 核 。 
将 TileLink 总 线 〈 伯 克利 自 定义 的 总 线 ) 替换 成 为 蜂鸟 E200 处理 器 使 用 的 ICB 总 


线 (关于 ICB 总 线 ， 请 参见 第 12 章 )。 
保留 了 所 有 的 外 设 IP, $% UART, SPI 和 了 PWM 等 ,但 是 直接 使 用 其 可 综合 的 Verilog 


代码 ， 无 须 使 用 Chisel 语言 进行 编译 转换 。 
注意 : 虽然 对 原 SoC 的 总 线 进行 了 修改 ， 但 是 所 有 外 设 的 总 线 地 址 分 配 表 仍 然 完 全 与 
原始 的 Freedom E310 SoC 一 致 ， 如 表 18-1 所 示 。 因 此 从 软件 的 角度 来 看 ， 可 以 认为 修改 后 


18.2 HBird-E200-SoCÍíS7t | 305 


的 SoC (虽然 使 用 的 是 蜂鸟 E200 处 理 器 核 ) 与 原始 的 Freedom E310 几乎 完全 兼容 ， 软 件 可 
以 很 方便 移植 运行 。 
为 了 方便 读者 理解 区 别 ， 本 书 将 “修改 后 的 SoC (E200 处 理 器 核 开源 配套 的 SoC)” 称 为 
“HBird-E200-SoC”， 同 时 非常 感谢 SiFive 公司 开源 Freedom SoC 为 RISC-V 社区 所 做 的 贡献 。 
1. HBird-E200-SoC 结构 图 
HBird-E200-SoC 结构 如 图 18-3 所 示 。 





18-3 HBird-E200-SoC 结构 图 


2. HBird-E200-SoC 地 址 分 配 
HBird-E200-SoC 的 总 线 地 址 分 配 如 表 18-1 所 示 。 


表 18-1 HBird-E200-SoC 地 址 分 配 表 
总 线 分 组 描述 


CLINT (Core Local Interrupt Controller) 模块 寄 
CLINT 0x0200 0000 0x0200 FFFF 存 器 地 址 区 间 
详 见 第 18.2.1 节 中 对 CLINT 的 介绍 
PLIC (Platform Level Interrupt Controller) 模块 
HERERR PLIC 0x0C00_0000 ~ 0x0CFF FFFF 寄存 器 地 址 区 间 
详 见 第 18.2.1 节 中 对 PLIC 的 介绍 
0x8000 0000 ~ 
ITCM F ITCM 地 址 区 间 
取决 于 ITCM 配置 大 小 
0x9000_0000 ~ 
DTCM DTCM 地 址 区 间 
mm 取决 于 DTCM 配置 大 小 
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续 表 


总 线 分 组 | 组 ft | 地 址 区 间 Ho 


r 注意 ; 调试 模块 主要 用 于 调试 器 使 用 ， 普 通 软 
调试 模块 0x0000 0000 —0x0000 OFFF | 
件 程序 不 应 该 使 用 此 区 间 
注意 : 开源 的 E200 项 目 由 于 是 FPGA 原型 ， 
Mask-ROM Ox0000_1000 ~ 0x0000_1FFF 
系统 存储 因此 Mask-ROM 代码 为 一 行为 模型 
总 线 接口 Off-Chip QSPIO 外 部 SPI Flash 只 读 地 址 区 间 
0x2000 0000 ~ Ox3FFF_FFFF 
Flash Read " 详 见 第 18.2.1 节 中 对 QSPI Flash 的 介绍 
On-Chip HEX: 本 SoC 由 于 是 FPGA 原型 ， 并 未 实际 提 
0x0002 0000 —0x0003 FFFF 
OTP Read à ft OTP 模块 , 仅 分 配 了 此 地 址 且 连 接 一 空 模块 


常 开 域 包含 PMU, RTC. WatchDog 和 
LCLKGEN 
常 开 域 0x1000 0000 —0x1000 7FFF 
详 见 第 182.1 节 中 对 PMU, RTC, WatchDog 
fll LCLKGEN 的 介绍 
高 速 时 钟 生 成 模块 
HCLKGEN 0x1000 8000 ~ 0x1000 8FFF 
b F 详 见 第 18.2.1 节 中 对 HCLKGEN 的 介绍 
注意 ; 本 SoC 由 于 是 FPGA 原型 ， 并 未 实际 提 
OTP Ox1001 0000 ~ 0x1001 OFFF 
供 此 OTP 模块 , 仅 分 配 了 此 地 址 连接 一 空 模块 
GPIO 地 址 区 间 
GPIO 0x1001 2000 —0x1001 2FFF 
— i T 详 见 第 18.2.1 节 中 对 GPIO 的 介绍 
第 一 个 UART 模块 地 址 区 间 
总 线 接口 UARTO 0x1001 3000 ~ 0x1001 3FFF 
详 见 第 18.2.1 区 中 对 UART 的 介绍 
第 一 个 QSPI 模块 地 址 区 间 
0x1001 4000 ~ 0x1001 4FFF 
i 详 见 第 18.2.1 节 中 对 QSPI 的 介绍 
第 一 个 PWM 模块 地 址 区 间 
PWMO 0x1001 5000 ~ 0x1001 SFFF 
r - 详 见 第 18.2.1 节 中 对 PWM 的 介绍 


UARTI 0x1002 3000 —0x1002 3FFF 第 二 个 UART 模块 地 址 区 间 
| QSPII | 0x1002 4000 ~ 0x1002_4FFF 第 二 个 QSPI 模块 地 址 区 间 


0x1002 5000 —0x1002 SFFF 第 二 个 PWM 模块 地 址 区 间 


QSPI2 0x1003 4000 ~ 0x1003 4FFF 第 三 个 QSPI 模块 地 址 区 间 
0x1003 5000 ~ 0x1003_5FFF 第 三 个 PWM 模块 地 址 区 间 


其 他 地 址 区 间 | 上 表 中 未 使 用 到 的 地 址 区 间 ， 则 均 为 写 忽略 ， 读 返回 0 


3. HBird-E200-SoC 模块 简 述 

本 书 限于 篇 幅 , 仅 对 每 个 模块 功能 进行 简略 的 描述。 感 兴趣 的 读者 可 到 e200 opensource 
项 目的 doc 目录 中 查看 此 SoC 的 详细 设计 文档 。 

HBird-E200-SoC 中 主要 的 模块 简 述 如 下 。 
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(1) HCLKGEN 
。 整个 SoC 从 时 钟 域 (Clock Domains) 上 分 为 两 个 大 的 部 分 : 主体 域 (Main Domain) 
和 电源 常 开 域 (Always-on Domain )。 其 中 ， 主 体 域 使 用 高 速 的 时 钟 ， 而 常 开 域 使 用 
低速 的 时 钟 。 
。 HCLKGEN 全 称 为 High-Speed Clock Generation 〈 高 速 时 钟 生 成 )， 该 模块 主要 为 主 
体 域 生 成 高 速 时 钟 。 高 速 时 钟 来 自 于 外 部 16MHz 唱 振 产生 或 者 内 部 的 PLL 产生 的 
高 频 时 钟 。 
(2) CLINT 
全 称 为 处 理 器 核 局 部 中 断 控制 器 〈Core-Local Interrupt Controller )， 主 要 实现 RISC-V 架 
构 手册 中 规定 的 标准 计时 器 (Timer) 和 软件 中 断 功 能 。 有 关 RISC-V 架构 的 计时 器 中 断 和 软 
件 中 断 详 细 功 能 以 及 实现 ， 请 参见 第 13.5.5 节 。 
(3) PLIC 
全 称 为 平台 中 断 控 制 器 〈Platform-Level Interrupt Controller), EZKI RISC-V 架构 手 
册 中 规定 的 PLIC 功能 〈 详 细 信息 参见 本 书 附录 C)。 该 PLIC 能 够 支持 多 个 中 断 源 ， 并 且 每 
个 中 断 可 以 配置 中 断 优先 级 ， 所 有 中 断 源 经 过 PLIC 仲裁 后 ， 生 成 一 根 最 终 的 中 断 信 号 通 给 
处 理 器 核 作 为 其 外 部 中 断 信 号 。 在 本 SoC 中 , PLIC 的 中 断 来 源 包 括 UART、SPI 和 GPIO 55, 
其 中 断 分 配 表 和 PLIC 的 详细 功能 以 及 实现 ， 请 参见 第 13.5.6 节 。 
(4) JTAG 
标准 〈1149.1) JTAG 连接 模块 用 于 连接 系统 外 部 调试 器 (Debugger) 与 内 部 的 调试 模 
块 (Debug Module). 
(5) 调试 模块 
调试 模块 , 用 于 支持 外 部 JTAG 通过 该 模块 调试 处 理 器 核 , 使 得 处 理 器 核能 够 通过 GDB 
对 其 进行 交互 式 调试 ， 璧 如 设置 断 点 、 单 步 执行 等 调试 功能 。 
(6) Quad-SPI Flash 
e 专用 于 连接 外 部 Flash 的 Quad-SPI (QSPI) 接口 。 
e 该 QSPI 接口 可 以 被 软件 配置 成 为 eXecute-In-Place 模式 , 在 此 模式 下 ,Flash 可 以 被 
当 作 一 段 只 读 区 间 直 接 被 存储 器 读 取 。 在 默认 上 电 之 后 ，QSPI 即 处 于 该 模式 之 下 。 
由 于 Flash 掉 电 不 丢失 的 特性 ， 因 此 可 以 将 系统 的 启动 程序 存放 于 外 部 的 Flash 中 ， 
然后 处 理 器 核 通过 eXecute-In-Place 模式 的 QSPI 接口 直接 访问 外 部 Flash, 加 载 局 动 
程序 局 动 。 
(7) GPIO 
e 全 称 为 General Purpose IO， 用 于 提供 一 组 32 VO 的 通用 输入 输出 接口 。 每 个 IO 可 
被 软件 配置 为 输入 或 者 输出 ， 如 果 是 输出 ， 则 可 以 设置 具体 的 输出 值 。 


308 | 套 上 壳 子 上 路 一 一 实现 SoC 和 FPGA 原型 


。 每 个 IO 还 可 以 被 配置 为 IOF (Hardware I/O Functions)， 也 就 是 将 IO 供 SoC 内 部 
的 其 他 模块 复 用 ， 璧 如 SPI UART 和 PWM 等 。 

e GPIO 的 32 个 IO 被 SoC 内 部 模块 的 复 用 分 配 如 表 18-2 所 示 ， 其 中 每 个 IO 均 可 以 
供 两 个 内 部 模块 复 用 ， 软 件 可 以 通过 配置 每 个 LO 使 其 选择 IOF0 或 者 IOF1 来 选择 


信号 来 源 。 
e。 另外 ， 每 个 GPIO 的 UO 均 作为 一 个 中 断 源 被 连接 到 PLIC 的 中 断 源 上 。 
表 18-2 GPIO 的 接口 分 配 
GPIO Pin 编号 IOFO IOF1 


0 


QSPII:SSO PWMO 2 
QSPI1:SD0/MOSI PWMO 3 
QSPII:SD1/MISO — 
QSPII:SCK = 
QSPI1:SD2 一 
QSPI1:SD3 一 
QSPI1:SS1 一 
QSPI1:SS2 = 
10 QSPI1:SS3 PWM2 0 


O lo | | 人 | 人 | 


Qo 

: 
| 

UJ 


16 UARTO:RX de: 
17 UARTO:TX pe 


24 UARTI:RX — 
25 UARTI:TX 
26 QSPI2:SS 一 
27 QSPI2:SD0/MOSI 


| 
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续 表 
GPIO Pin 编号 IOF1 
= : 
T : 
a : 
I : 
(8) QSPI 
除了 上 述 专 用 于 Flash 的 QSPI 接口 之 外 ，SoC 还 有 两 个 独立 的 QSPI 接口 控制 器 。 一 个 
QSPI 使 用 4 个 片 选 信号 (Chip Selects)，1 个 QSPI 使 用 1 个 片 选 信和 号。 两 个 QSPI 均 使 用 
GPIO 的 IOF 功能 与 外 界 通信 。 
(9) UART 
全 称 为 Universal Asynchronous Receiver-Transmitter (通用 异步 接收 -发 射 器 )。SoC 有 两 
个 独立 的 UART， 两 个 UART 均 使 用 GPIO 的 IOF 功能 与 外 界 通信 。 
(100 PWM 
全 称 为 Pulse-Width Modulator〈 脉 宽 调 节 器 )。SoC 有 3 个 独立 的 PWM， 其 中 PWMI 
和 了 PWM2 是 16 比特 宽 的 精度 ， 另 一 个 PWM0 是 8 比特 宽 的 精度 。3 个 PWM 均 使 用 GPIO 
的 IOF 功能 与 外 界 通信 。 
(11) 常 开 域 
。 LCLKGEN: 全 称 为 低速 时 钟 生 成 (Low-Speed Clock Generation )。 该 模块 主要 为 常 
开 域 生成 低速 时 钟 ， 应 该 使 用 32.768KHz 的 低速 实时 时 钟 ， 该 时 钟 来 自 于 外 部 晶振 
产生 。 
。 WatchDog: 全 称 为 看 门 狗 计 数 器 (Watch Dog Timer)。 该 计数 器 位 于 常 开 域 中 ， 因 
此 使 用 低速 时 钟 进行 计数 ， 并 且 可 以 通过 配置 其 计数 的 目标 值 产生 中 断 。 
e RTC: 全 称 为 实时 计数 器 (Real-Time Counter)。 该 计数 器 位 于 常 开 域 中 ， 因 此 使 用 
低速 时 钟 进行 计数 ， 并 且 还 能 产生 中 断 。 
e PMU: 全 称 为 电源 管理 单元 (Power Management Unit)， 用 于 控制 Soc 的 电源 管理 。 
整个 SoC 除了 WatchDog、RTC 和 PMU 等 模块 处 于 常 开 域 之 外 ， 其 他 主 域 可 以 在 
PMU 的 控制 下 被 置 于 断 电 状态 以 节省 功 耗 ， 或 者 重新 唤醒 等 。 


18.2.2 HBird-E200-SoC 代码 结构 


HBird-E200-SoC 的 代码 结构 如 下 所 示 。 
e200 opensource 
|----rtl // 存放 RTL 的 目录 
| ----e203 // E203 Efl Soc 的 RTL 目录 


310 | ELFER IN SoC 和 FPGA 原型 


| ----general // 存放 一 些 公用 的 通用 RTL 代码 

|----core // 存放 e203 Core 的 RTL 代码 

|----fab // 存放 总 线 结 构 (ous fabric) HJ RTL 代码 
|---- sirv icblto4 bus.v // 将 1 组 ICB 总 线 转换 成 4 路 ICB 总 线 
|---- sirv icblto8 bus.v // 将 1 组 ICB 总 线 转换 成 8 路 ICB 总 线 
|---- sirv icbltol6 bus.v // 将 1 组 ICB 总 线 转换 成 16 路 ICB 总 线 

----subsys // 存放 完整 子 系统 顶层 的 RTL 代码 

[---- e203 subsys top.v // 子 系统 的 项 层 
|---- e203 subsys main.v // 子 系统 的 主体 部 分 〈 可 关 电 ) 顶层 
|---- e203 subsys plic.v // PLIC 顶层 
|---- e203 subsys clint.v  // CLINT 顶层 
|---- e203 subsys mems.v // 子 系统 的 存储 部 分 项 层 


| 

[==== e203 subsys perips.v  // 子 系统 的 外 设 部 分 顶层 

| ----mems // 存放 存储 器 模块 的 RTL 代码 

|----perips // 存放 外 设 (peripheralsO 模块 的 RTL 代码 
|[---- aslr*v aon *.v // 常 开 域 部 分 模块 
|---- sirv clint*.v // CLINT 的 模块 
|---- sirv flash qspi*.v // Flash 专用 的 QSPI 模块 
[==== sirv gpio*.v // GPIO 的 模块 
| sirv pldc.v // PLIC 的 模块 
[=-= sixrv-pmu*.v // PMU 的 模块 
|---- sirv pwmnl6*.w // 16bits 精度 的 PWM 模块 
|== sirv pwmn8*.wv // 8bits 精度 的 PWM 模块 
|---- sirv qspi lcsy.vV // 1 个 Cs 选 通 的 QSPI 模块 
|---- sirv qspi 4cs*.v // 4 个 CS 选 通 的 QSPI 模块 
|---- sirv qspi*.v // 其 他 QsPI 子 模块 
|---- sirv rtc*.v // RTC 模块 
|---- sirv uart*.v // UART 模块 
|---- sirv wdog*.v // WatchDog 模块 

| ----debug // 存放 调试 相关 模块 的 RTL 代码 

| ----soc // 存放 soc 顶层 的 RTL 代码 

1----e203 soc top.v // Soc 顶层 
各 个 主要 的 代码 模块 简 述 如 下 。 


(1) general 目录 主要 用 于 存放 一 些 通用 的 Verilog RTL 模块 供 整个 SoC 公用 ， 壁 如 一 些 
DFF (D 触发 器 寄存 器 ) 模块 文件 、ICB 总 线 的 基础 模块 等 。 

(2) core 目录 主要 用 于 存放 处 理 器 核 模块 的 Verilog RTL 代码 ， 关 于 此 部 分 的 具体 代码 
分 析 ， 请 参见 第 5.5 WFR. 

(3) fab 目录 主要 实现 SoC 中 ICB 总 线 结构 模块 的 Verilog RTL 代码 。sirv_ icblto4 bus.v、 
sirv icblto8 bus.v 或 者 sirv icbltol6 bus.v 实际 例 化 调用 了 “ICB 分 及 ”模块 将 一 组 ICB 总 
线 按照 地 址 区 间 分 发 成 为 4 组 ,8 组 或 者 16 组 ICB 总 线 ,“ICB 分 发 "模块 的 微 架 构 在 第 12.3.1 
节 有 详细 论述 ， 本 书 于 此 不 再 歼 述 。 

(4) subsys 目录 包含 了 SoC 的 主体 顶层 模块 的 Verilog RTL 代码 ， 其 中 e203 subsys top 是 
事实 上 的 SoC 顶层 文件 ， 它 例 化 了 主 域 模块 (e203 subsys main.v)、 常 开 域 模块 (e203 aon top.v) 
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和 调试 模块 (sirv debug module)。 其 模块 间 的 层次 结构 如 图 18-4 所 示 。 
(5) mems 目录 主要 用 于 存放 存储  [ez00_subsystop 
器 模块 的 Verilog RTL 代码 ， 由 于 存储 
器 的 具体 实现 依赖 于 尾 片 生产 加 工厂 
(Foundry), #0 SMIC 或 者 TSMC 的 
存储 右 单 元 ， 因 此 本 文件 夹 下 的 Verilog 
RTL 代码 仅 是 行为 模型 。 
(6) perips 目录 主要 用 于 存放 各 种 
外 设 CPeripherals) 模块 的 Verilog RTL T 
代码 ， 璧 如 GPIO, UART 和 SPI 等 。 图 18-4 SoC 模块 层次 结构 
(7) debug 目录 包含 了 SoC 中 有 关 调 试 模 块 的 Verilog RTL 代码 。 该 部 分 已 经 在 第 14 章 
详细 讨论 过 ， 在 此 不 再 闭 述 。 
(8) soc 目录 主要 用 于 存放 SoC 顶层 模块 的 Verilog RTL 代码 。 
e e203_soc top.v 是 一 个 简单 的 顶层 SoC 顶层 模块 ， 将 e203_subsys_top 进行 例 化 。 





18.3 liim SUBEST dd 


E200 开源 项 目 使 用 18.2 节 中 介绍 的 HBird-E200-SoC 搭建 了 完整 的 FPGA 原型 平台 与 

FPGA 原型 主要 分 为 两 部 分 FPGA 开发 板 和 调 
试 器 。 后 续 章 节 将 分 别 予 以 介绍 。 完 整 的 FPGA Jf 
发 板 原 型 (包括 FPGA 开发 板 和 调试 器 ) 如 图 18-5 
所 示 。 


18.3.1 .FPGA 开发 板 图 18-5 FPGA 开发 板 原 型 (包括 调试 器 ) 


FPGA 开发 板 使 用 Xilinx Artix-7 35T Arty FPGA Evaluation Kit 开发 板 。 如 图 18-6 所 示 ， 
该 开发 板 是 一 款 低 成 本 的 入 门 级 Xilinx FPGA 开发 板 ， 特 别 适用 于 电路 设计 规模 不 大 的 
FPGA 爱好 者 ， 其 特性 如 下 。 
。 使 用 Xilinx Artix-35T FPGA (xc7a35ticsg324-1L) . 
。 FPGA 包含 33280 个 逻辑 单元 ， 由 5200 个 Slices 组 成 。 每 个 Slice 包含 4 个 6 输入 
的 LUT 和 8 个 寄存 器 。 
。 FPGA 包含 1800Kbits 的 快速 Block RAM. 
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FPGA 包含 5 个 时 钟 管理 堆 ， 每 个 均 配 备 PLL. 

FPGA 包含 90 个 DSP slices。 

FPGA 内 部 时 钟 频率 可 以 高 达 450MHz。 

FPGA 提供 片上 模 数 转换 (XADC)。 

支持 通过 JTAG 或 者 Quad-SPI 烧 写 FPGA。 

开发 板 提供 256MB 的 DDR3L 接口 ,DDR3L 的 数据 宽度 为 16 比特 ,频率 为 667MHz。 
开发 板 提 供 Quad-SPI 接口 的 16MB Flash。 

开发 板 包含 USB f JTAG 电路 , 允许 通过 主机 PC 的 USB 口 对 FPGA 的 JTAG 口 进 
行 烧 录 FPGA。 

开发 板 支 持 通 过 USB 接口 供电 或 者 通过 单独 的 电源 供电 。 

开发 板 提供 10/100 Mbps 的 以 太 网 接口 。 

开发 板 提供 UART f£ USB 电路 ， 人 允许 FPGA 通过 UART 接口 转 USB 接口 与 主机 PC 
通信 。 

开发 板 提供 4 个 通用 按键 、1 个 Reset 按键 、4 个 LED 灯 、4 个 RGB LED 灯 。 
开发 板 提 供 4 个 Pmod connectors 和 1 组 Arduino/chipKIT Shield connector。 


注意 : 该 FPGA 开发 板 可 以 直接 使 用 USB 进行 电源 供电 ， 或 者 单独 使 用 电源 线 供电 。 
出 于 简便 ， 示 例 中 直接 使 用 USB 线 供电 ， 使 用 USB A to Micro-B Cable( 即 安 卓 手机 充电 器 
USB 线 ) 对 其 进行 供电 即 可 ， 如 图 18-7 所 示 。 同 时 该 USB 线 也 会 被 用 于 将 FPGA 的 bitstream 
文件 (由 Vivado 软件 编译 Verilog ME) 烧 录 到 FPGA 芯片 中 。 








图 18-6 Arty 开发 板 图 18-7 USB A to Micro-B Cable 对 FPGA 开发 板 供电 


E200 开源 项 目 FPGA 项 目 相 关 的 代码 结构 如 下 所 示 。 


e200 opensource 


|----fpga // 存放 RTL 的 目录 
|----artydevkit // Arty 开发 板 的 项 目 文件 夹 
|----constrs // 存放 约束 文件 的 文件 夹 
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|7---- arty-master.xdc // 主 约束 文件 


|----Makefile // Makefile 脚本 
|----script // 存放 运行 脚本 的 文件 夹 
|----src // 存放 Verilog 源 代码 的 文件 夹 
|7----system.org // FPGA 系统 的 顶层 模块 
| ----Makefile // Makefile 脚本 


在 FPGA 的 顶层 模块 (system.org) 中 除了 例 化 SoC 的 顶层 (e203 soc top) 之 外 ， 主 要 
是 使 用 Xilinx 的 IO Pad 单元 例 化 顶层 的 Pad. Ear JTAG 接口 TDO 连接 到 名 为 jd0 的 Pad 
上 ， 如 图 18-8 所 示 ， 另 外 使 用 Xilinx 的 MMCM 单元 生成 时 钟 。 





图 18-8 system 中 I/O Pad 例 化 


HBird-E200-SoC 的 顶层 L/O Pad 经 过 FPGA 的 约束 文件 Carty-master.xdc) 进行 约束 ， 使 
之 连接 到 FPGA 心 片 外 部 真实 的 pin 脚 上 面 ， 璧 如 JTAG 的 Pad (jd0 一 jd7) 被 连接 到 了 FPGA 
^ Hr HJ D4/D3 等 pin 脚 上 ， 如 图 18-9 所 示 。 





图 18-9 arty-master.xdc 中 的 pin 脚 约束 
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18.3.2 生成 mcs X: ft 5S FPGA 


在 第 18.2 节 中 介绍 了 E200 开源 项 目的 SoC 整体 架构 和 Verilog RTL 代码 ， 为 了 使 得 该 
SoC 能 够 真正 运行 在 FPGA 硬件 上 ， 需 要 将 其 编译 成 为 bitstream 文件 ， 然 后 烧 录 到 FPGA 
中 去 ， 步 又 如 下 。 


// 注意 : 下 列 步 又 的 完整 描述 也 被 记载 于 e200 opensource 项 目的 doc 目录 中 的 
SoC Quick Start Guide 文档 ， 以 便于 读者 直接 复制 命令 进行 运行 。 


// 步骤 一 : 准备 好 自己 的 电脑 环境 , 可 以 在 公司 的 服务 器 环境 中 运行 。 如果 是 个 人 用 户 , 推荐 如 下 配置 。 
(1) 使 用 VMware 虚拟 机 在 个 人 电脑 上 安装 虚拟 的 Linux 操作 系统 。 
(2) 由 于 Linux 操作 系统 的 版 本 众多 ， 推 荐 使 用 Ubuntu 16.04 版 本 的 Linux 操作 系统 
有 关 如 何 安装 VMware 和 Ubuntu 操作 系统 本 书 不 做 介绍 ， 有 关 Linux 的 基本 使 用 本 书 
也 不 做 介绍 ， 请 读者 自行 查阅 资料 学 习 。 


// 步骤 二 :安装 XilLlinx Vivado 软件 至 此 虚拟 机 Linux 操作 系统 中 。 有 关 如 何 安 装 Xilinx Vivado 
Fi 软件 本 书 不 做 介绍 ， 请 读者 自行 查阅 资料 了 解 。 


// 步骤 三 : 将 e200_ opensource 项 目下 载 到 本 机 Linux 环境 中 ， 使 用 如 下 命令 。 


git clone https://github.com/SI-RISCV/e200 opensource.git 
// 经 过 此 步骤 将 项 目 克 隆 下 来 ， 本 机 上 即 可 具有 如 第 17.1 节 中 所 述 完 整 的 
// e200 opensource 目录 文件 夹 ， 假 设 该 目录 为 <youz_e200 dir>， 后 文 将 使 用 该 缩 
// 写 指 代 。 


// 步骤 四 : 设置 需要 编译 的 E200 Core 的 具体 型 号 ， 使 用 如 下 命令 。 


cd «your e200 dir»/fpga 
// 进入 到 e200 opensource 目录 文件 夹 下 面 的 fpga 目录 。 


make install CORE=e203 
// 运行 该 命令 指明 需要 为 e203 core 进行 编译 ， 该 命令 会 在 fpga 目录 下 生成 一 个 
// install 子 文件 夹 , 在 其 中 放置 Vivado 所 需 的 脚本 , 且 将 脚本 中 的 关键 字 设 置 为 e203。 
// 同时 在 fpga 的 install/rtl 子 目录 下 将 生成 FPGA 项 目 所 需 的 所 有 RTL 文件 ， 包 括 
// system.v 和 其 他 RTL 源 文件 。 


// 注意 : 
// 由 于 上 述 “make install CORE=e203” 命 令 通 过 fpga/common .mk 脚本 将 
A 添加 一 个 特殊 的 宏 FPGA SOURCE Æ e203 defines.v. 


m 因此 : 对 于 FPGA 项 目 ， 必 须 使 用 此 install/rt1 目录 下 的 文件 。 


// 步骤 五 : 安装 Arty 开发 板 的 board part 到 Vivado 软件 中 。 
// 如 果 第 一 次 使 用 Vivado 软件 为 Arty 开发 板 进行 编译 ， 则 可 能 出 现 如 图 18-10 所 示 的 
// 错误 ， 这 是 因为 没有 为 Arty 开发 板 安装 board part. 
// 按照 Digilent 公司 网 址 链接 (请 在 百度 中 搜索 digilent arty board-files) 中 
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// 的 说 明 安 装 Arty 开发 板 的 board part 即 可 。 


// 步骤 六 : ÆR bitstream 文件 或 者 mcs 文件 〈 推 荐 使 用 mes 文件 ) ， 使 用 如 下 命令 。 


make bit 
// 运行 该 命令 将 调用 Vivado 软件 对 Verilog RTL 进行 编译 生成 bitstream 文件 。 
// 注意 : 为 了 保证 此 步骤 能 够 成 功 执行 ， 请 使 用 较 新 版 本 的 Vivado; 如 果 是 在 虚拟 机 
// 中 运行 的 Linux 操作 系统 ， 确 保 为 虚拟 机 分 配 超过 4G 的 内 存 空间 ， 否 则 vivado 
// 可 能 因 内 存 不 够 而 中 断 退 出 。 
// 生成 的 bitstream 文件 名 和 路 径 为 
// «your e200 dir»/fpga/artydevkit/obj/system.bit 
// 该 bitstream 文件 则 可 以 使 用 Vivado 软件 的 Hardware Manager 功能 将 
// system.bit 烧 录 至 FPGA 中 去 。 


// 熟悉 Vivado Ñ Xilinx FPGA 使 用 的 用 户 应 该 了 解 ，bitstream 文件 烧 录 到 FPGA 中 
// 去 之 后 FPGA 不 能 掉 电 ， 因 为 一 旦 掉 电 之 后 ，FPGR 烧 录 的 内 容 即 丢失 ， 需 要 重新 使 用 
// Vivado 的 Hardware Manager 进行 烧 录 方 能 使 用 。 

// 为 了 方便 用 户 使 用 ，Xilinx W arty 开发 板 可 以 将 需要 烧 录 的 内 容 写 入 开发 板 上 的 

// Flash 中 ， 然 后 在 每 次 FPGA 上 电 之 后 通过 硬件 电路 自动 将 需要 烧 录 的 内 容 从 外 部 的 
// Flash 中 读 出 并 烧 录 到 FPGA 之 中 《该 过 程 比 较 的 快 ， 不 影响 用 户 使 用 ) 。 由 于 Flash 
// 是 非 易 失 性 的 存储 器 ， 具 有 掉 电 后 仍 可 保存 的 特性 。 这 意味 着 将 需要 烧 录 的 内 容 写 入 
// Elash 后 ， 每 次 掉 电 后 无 需 使 用 Hardware Manager ALEJ Ex (而 是 硬件 电路 
// 快速 自动 完成 ) ， 即 等 效 于 FPGA 上 电 即 可 使 用 。 

// 有 关 此 特性 的 详细 原理 与 描述 ， 本 书 不 做 次 述 ， 请 读者 自行 参阅 Arty 开发 板 手册 。 


// 为 了 能 够 将 烧 录 FPGA 的 内 容 写 入 Flash 中 ， 需 要 生成 mcs 文件 ， 使 用 如 下 命令 。 
make mcs 

// 运行 该 命令 将 调用 Vivado 软件 对 Verilog RTL 进行 编译 生成 mcs 文件 

// 生成 的 mcs 文件 名 和 路 径 为 

// «your e200 dir»/fpga/artydevkit/obj/system.mcs 

// 该 mcs 文件 则 可 以 使 用 Vivado 软件 的 Hardware Manager 功能 将 

// system.mcs ERE FPGA 开发 板 中 的 Flash PË- 


| foy 


一 


RROR: [Board 49-71] The board part definition was not found for digilentinc.com:arty:part8:1.1, 
The project's board part property was not set, but the project's part property was set to xc7a3 
5ticsg324-1L. Valid board part values can be retrieved with the 'get board parts' Tcl command. 
eck if board.repoPaths parameter is set and the board part is installed from the tcl app store. 
NFO: [Common 17-17] undo 'set property' 


1 
B: 
B: 
~ 





图 18-10 未 安装 Arty 开发 板 的 board part 到 Vivado 软件 中 引起 的 错误 
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如 何 使 用 Vivado 的 Hardware Manager 烧 写 mes 文件 至 FPGA 开发 板 上 的 Flash 中 去 ， 
参考 如 下 步骤 。 


// 步骤 一 : FIF Vivado 软件 。 
// 步骤 二 : 打开 Hardware Manager， 自 动 连接 Arty 开发 板 ， 如 图 18-11 和 图 18-12 所 示 。 
// 步骤 三 : 右键 FPGA Device， 选 择 “aAdd Configuration Memory Device”， 如 图 18-13 所 示 。 


// FRA: 选择 如 下 参数 的 Flash， 如 图 18-14 所 示 。 
Part n2590128-3.3v 
Manufacturer Micron 
Family n25q 
Type spi 
Density 128 
Width x1 x2 x4 


// 步骤 五 : 弹出 “Do you want to program the configuration memory device now?" , 
选择 OK. 


// 步骤 六 : 在 弹出 的 窗口 中 的 <Configuration file> 对 话 框 中 选择 添加 


«your e200 dir>/fpga/artydevkit/system.mcs， 然 后 选择 “OK”， 则 开始 烧 写 Flash， 可 能 
会 花费 几 十 秒 的 时 间 等 待 。 


// Rt: 一 旦 烧 写 Flash 成 功 ， 则 可 以 通过 按 开 发 板 上 的 “PROG” 按 键 触发 硬件 电路 使 用 Flash 
中 的 内 容 对 FPGA 重新 进行 烧 录 ， 烧 录 完 成 后 “PROG” 按 键 下 方 的 DONE 信号 灯 将 变 亮 。 


É 


| viana — 


‘Ë localhost ( Connected 
' en a xili ENON 031 9A2CEDEA t tr Open 
$ xc7e35t 0 (1) Programmed 
L8 XADC Teystumi onkori 


Labtools -466| Open ing 
Lui | cur rre .hw device [lindex |get hw yer el g a 
"| Cirefresh hw device -update hw probes false [lindex [get hw devices] 0] 
i] INFO: dvor E 1434] Device xc7e35t (TAG device index = Ka. is unos dest sy & d that has no su[ 
| Ww 27.3123] The detog hub c tet detec oc J 


E (bg hubj ig ree ruming clot d 15 re 
r-bscan «x PUES, SCAN. CHAIN scan chain nutber- to det 





18-11 打开 Vivado Hardware Manager 图 18-12 使 用 Vivado Hardware Manager 连接 Arty 开发 板 
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Flow Jools Window Layout View Help 


Choose a configuration memory part. This cun be changed iater. 


te c7a39 0 


Manufacturer (Ad See 
Dënsity (Mb) 


feach [Ens — 


1 52521291.Bw4pi«l «2 *4 — n239129-1 5v + 
Tasai am Rond 3 


3 


D n25964-1OvwsQial x2 *4 — n2 
Q n25q64-3 Wopint x2 nk 


HP 
$9605950g95 











图 18-13 FPGA Device 选择 18-14 选择 Flash 类 型 
Add Configuration Memory Device 


8.3.3 JTAG 调试 器 


为 了 支持 使 用 GDB 进行 交互 式 调试 或 者 通过 GDB 动态 下 载 程序 到 处 理 器 中 运行 ， 需 
要 为 FPGA 原型 平台 配备 一 个 JTAG 调试 器 (JTAG Debugger)。 在 第 18.2 节 中 曾经 介绍 了 
E200 处 理 器 核 文 持 通过 标准 的 JTAG 接口 对 其 进行 调试 ， 在 第 18.3.1 节 中 介绍 了 SoC 顶层 
JTAG 的 IO Pad 连接 到 了 FPGA 芯片 的 D4/D3 ^5 pin 脚 上 ， 而 该 组 pin HE Arty 开发 板 上 
实际 被 连接 到 PMOD Header JD 上 ， 如 图 18-15 中 圆圈 所 示 。 





18-15 JTAG Pin 脚 连接 的 PMOD Header JD 
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E200 开源 项 目 提 供 完整 的 硬件 调试 参考 方案 。 由 于 E200 开源 项 目 采 用 标准 的 JTAG 接口 ， 
因此 需要 使 用 JTAG 调试 器 。 该 调试 器 通过 USB 转 接线 (USB A to B Cable) 与 上 游 主 机 PC 的 
USB 接口 连接 ， 同 时 通过 JTAG 接口 与 下 游 的 FPGA 开发 板 连 接 ， 如 图 18-16 中 大 圆圈 中 所 示 。 

此 套 JTAG 调试 器 需要 用 户 目 行 组 装 。 

该 调试 器 组 件 的 核心 为 “Olimex ARM-USB-TINY-H”， 这 是 一 个 硬件 JTAG 调试 器 ， 如 
图 18-16 中 小 圆圈 所 示 。 

由 于 Olimex ARM-USB-TINY-H 的 输出 口 是 双 排 管 脚 接口 ， 因 此 需要 使 用 公 口 转 母 口 杜邦 
żę (Male-To-Female Jumper Cables), 将 其 与 FPGA 的 PMOD Header JD 连接 ， 如 图 18-17 所 示 。 





18-16 “完整 的 JTAG 调试 器 图 18-17 使 用 杜邦 线 连 接 JTAG 调试 器 与 FPGA 开发 板 


为 了 方便 连 线 且 防止 出 错 ， 推 荐 使 用 不 同 颜色 的 公 口 转 母 口 连接 线 进行 连接 。 图 18-18 
所 示 是 对 Olimex ARM-USB-TINY-H 输出 的 20 根 公 口 管 脚 进 行 了 不 同 颜 色 的 编号 。 图 18-19 
所 示 是 对 FPGA 的 PMOD Header JD 输入 的 12 根 母 口 管 脚 进行 了 不 同 颜色 的 编号 。 在 连 线 
时 ， 严 格 使 用 对 应 颜色 的 连 线 逐 一 进行 连接 后 (注意 紧密 连接 防止 接触 不 良 )， 即 宣告 完成 。 


| 1:VREF (red) |2:VREF (brown) 
3 : nTRST (orange) 4 
5 : TDI (yellow) 6 


= 7: TMS (green) 8 
9 : TOK (blue) 10 














| NOTCH E TDO (purple) | 7: TDI (yellow) 


| 8: TMS (green) 













13: TDO (purple) | 14: GND (black) 





































| ^ 15:nRST (grey | 16: GND (white) 3; TCK (blue) | 9:nRST (grey) 
Li k | E “GND” | 5:GND (black) 11 : GND (white) 
Fx LED | "VCC" | 6:VREF (brown) | 12: VREF (red) 
18-18 Olimex ARM-USB-TINY-H 图 18-19 FPGA 的 PMOD Header JD 
输出 的 20 根 公 口 管 脚 颜色 编号 输入 的 12 根 母 口 管 脚 颜色 编号 


由 于 Olimex ARM-USB-TINY-H 使 用 USB 转 接线 (USB A to B Cable) 将 其 与 上 游 主机 
PC 的 USB 接口 连接 ， 因 此 上 游 PC 的 USB 端口 需要 正确 的 设置 以 保证 有 正确 的 权限 。 以 
Ubuntu 16.04 为 例 ， 可 以 使 用 如 下 步骤 进行 配置 。 
// 注意 :下 列 步骤 的 完整 描述 也 被 记载 于 e200 opensource 项 目的 doc 目录 中 的 Soc Quick Start 
Guide 文档 ， 以 便于 读者 直接 复制 进行 重 现 。 


O OJ 步骤 一 : 准备 好 自己 的 电脑 环境 , 可 以 在 公司 的 服务 器 环境 中 运行 , 如 果 是 个 人 用 户 , 推荐 如 下 配置 。 
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(1) 使 用 VMware 虚拟 机 在 个 人 电脑 上 安装 虚拟 的 Linux 操作 系统 。 

(2) 由 于 Linux 操作 系统 的 版 本 众多 ， 推 荐 使 用 Ubuntu 16.04 版 本 的 Linux 操作 系统 
有 关 如 何 安装 VMware 和 Ubuntu 操作 系统 本 书 不 做 介绍 ， 有 关 Linux 的 基本 使 用 本 书 
也 不 做 介绍 ， 请 读者 自行 查阅 资料 学 习 。 


// 步骤 二 : 将 FPGA 开发 板 通 电 (可 以 使 用 普通 安 卓 手机 USB 充电 器 连接 线 供 电 , 或 者 使 用 独立 的 电源 
供电 ) 。 使 用 USB A to B Cable 将 主机 PC 5 FPGA 开发 板 连接 。 
注意 ; 
(1) 务必 使 该 USB 接口 被 虚拟 机 的 Linux 系统 识别 (而 非 被 Windows 识别 ) ,如 图 18-20 中 圆圈 所 示 ， 
zi usB 图 标 在 虚拟 机 中 显示 为 高 亮 , 则 表明 USB 被 虚拟 机 中 Linux 系统 正确 识别 (而 非 被 Windows 识别 ) 。 
| (2) i usB 图 标 在 虚拟 机 中 显示 为 灰色 ， 则 表明 USB 没有 被 虚拟 机 中 的 Linux 系统 正确 识别 ， 如 图 18-21 所 
(GR 可 以 使 用 鼠标 点 中 USB 图 标 , 选择 将 其 “连接 (与 主机 的 连接 ) ”, 将 其 连接 至 Linux 系统 (而 非 外 部 Windows ) 。 


// 步骤 三 : 使 用 如 下 命令 查看 USB 设备 的 状态 。 


lsusb // 运行 该 命令 后 会 显示 如 下 信息 。 





Bus 001 Device 029: ID 15ba:002a Olimex Ltd. ARM-USB-TINY-H JTAG interface 


// FRA: 使 用 如 下 命令 设置 udev rules， 使 得 该 USB 设备 能 够 被 Plugdev group 所 访问 。 


sudo vi /etc/udev/rules.d/99-openocd.rules 


// 用 vi 打开 该 文件 ， 然 后 添加 以 下 内 容 至 该 文件 中 ， 然 后 保存 退出 。 
# These are for the Olimex Debugger for use with Arty Dev Kit 
| SUBSYSTEM--"usb", ATTRÍ(idVendor]--"15ba", 
ATTR(idProductj--"002a", MODE-"664", GROUP-"plugdev" 
SUBSYSTEM--"tty", ATTRS[idVendor]--"15ba", 
ATTRS(idProduct]--"002a", MODE-"664", GROUP-"plugdev" 


// PREI: 使 用 如 下 命令 查看 该 USB 设备 是 否 属于 plugdev group. 


ls /dev/ttyUSB* // 运行 该 命令 后 会 显示 类 似 如 下 信息 。 
/dev/ttyUSBO /dev/ttyUSBl 


ls -1 /dev/ttyUSBl // 运行 该 命令 后 会 显示 类 似 如 下 信息 。 
crw-rw-r-- 1 root plugdev 188, 1 Nov 28 12:53 /dev/ttyUSBl 


// 步骤 六 : 将 你 自己 的 用 户 添加 到 plugdev group 中 。 





whoami 
// 运行 该 命令 能 显示 自己 用 户 名 ， 假 设 你 的 自己 用 户 名 显示 为 your user name 


// 运行 如 下 命令 将 your user name 添加 到 Plugdev group 中 
sudo usermod -a -G plugdev your user name 


// 步骤 七 : 确认 自己 的 用 户 是 否 属于 Plugdev group. 
groups // 运行 该 命令 后 会 显示 类 似 如 下 信息 。 
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(s. PDIUgdevV ... 
| / 只 要 从 显示 的 groups 中 看 到 plugdev 则 意味 着 自己 的 用 户 属于 该 组 ,表示 设置 成 功 





图 18-20 ”虚拟 机 Linux 系统 识别 USB 图 标 18-21 将 USB 接口 选择 连接 至 虚拟 机 中 


JTAG 调试 器 的 硬件 组 装 工 作 至 此 便 已 完成 。 在 第 19.4 节 中 将 介绍 利用 该 JTAG 调试 器 
如 何 使 用 GDB 软件 对 E200 开源 SoC 原型 进行 远程 调试 。 


18.3.4 FPGA 原型 平台 DIY 总 结 


将 以 上 论述 内 容 加 以 总 结 ， 为 了 能 够 搭建 完整 的 FPGA 原型 平台 ,用户 需要 做 如 下 便 件 
的 准备 工作 。 

。 购买 一 块 Xilinx Artix-7 35T Arty FPGA Evaluation Kit 开发 板 。 

。 购买 一 根 USB A to Micro-B Cable( 即 安 卓 手机 充电 器 USB 线 )， 用 于 给 FPGA 开 友 
板 供电 且 烧 录 FPGA. 

e 购买 一 块 Olimex ARM-USB-TINY-H Debugger. 

。 购买 一 根 USB Ato B Cable， 用 于 连接 主机 PC 5 Olimex ARM-USB-TINY-H Debugger. 

e 购买 一 组 Male-To-Female Jumper Cables (杜邦 线 )， 用 于 连接 Olimex ARM-USB- 
TINY-H Debugger 5j FPGA 开发 板 。 

用 户 需 要 做 如 下 软件 的 准备 工作 。 

e 推荐 安装 VMware 虚拟 机 ， 且 安装 Linux 操作 系统 于 虚拟 机 中 。 

。 安装 Xilinx 的 Vivado 软件 ， 且 安装 Arty 开 友 板 的 board part. 

在 第 19 章 中 将 介绍 如 何 使 用 烧 录 后 的 FPGA 原型 平台 运行 真正 的 软件 示例 。 


18.4 FEET 


除了 上 一 节 中 介绍 的 Xilinx Arty FPGA 开发 板 ， 为 了 便于 RISC-V 爱好 者 学 习 和 使 用 ， 
蜂鸟 E200 会 推出 配套 的 入 门 级 开发 板 ， 包 括 专 门 为 蜂鸟 E200 定制 的 ， 具 有 极 高 性 价 比 的 
专用 FPGA 开发 板 和 JTAG 调试 器 。 感 兴趣 的 读者 可 到 e200 opensource 项 目的 boards H3 
中 了 解 蜂鸟 E200 专用 开发 板 的 相关 信息 。 





-运行 和 调试 软件 示例 
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19.1 KEE SIBI 平台 简介 


上 一 章 中 我 们 介绍 了 E200 开源 项 目的 配套 SoC 系统 和 代码 ,并且 介绍 了 如 何 搭建 FPGA 
原型 平台 。 至 此 ,“ 万 事 俱 备 ， 只 欠 东 风 ” 

就 像 画 龙 点 睛 一 样 ， 只 有 当 软 件 程序 真正 运行 于 处 理 器 上 面 时 ， 才 意味 着 此 处 理 器 真 的 
“ 活 ” 了 。 如 第 4 章 所 介绍 的 ， 蜂 乌 E200 提供 完整 的 软件 开发 环境 ， 更 是 难能可贵 地 提供 交 
互 式 硬件 调试 工具 (GDB) 的 支持 。 因 此 ， 本 章 将 介绍 如 何 使 用 SoC 的 FPGA 原型 平台 运 
行 真正 软件 示例 ， 同 时 介绍 如 何 使 用 GDB 对 程序 进行 调试 。 





在 第 18.1 节 中 ， 我 们 介绍 了 SiFive 公司 推出 的 开源 Freedom E310 SoC 平台 ， 为 了 让 用 
尸 能 够 非常 容易 地 使 用 RISC-V 处 理 器 开发 软件 ，SiFive 公司 不 仅 开 源 了 其 SoC 平台 ， 还 开 
发 和 开源 了 一 套 与 之 配套 的 软件 开发 平台 ， 称 之 为 Freedom-E-SDK 平台 。 

需要 注意 的 是 ，Freedom-E-SDK 并 不 是 一 个 软件 ， 它 本 质 上 是 由 一 些 Makefile、 板 级 支 
{F€ (Board Support Package，BSP)、 脚 本 和 软件 示例 组 成 的 一 套 开 发 环境 。 其 基于 Linux 

台 ， 使 用 标准 的 RISC-V GNU 工具 链 对 程序 进行 编译 ， 使 用 OpenOCD+GDB 将 程序 下 载 

到 硬件 平台 中 并 进行 调试 。 因 此 ， 它 主要 包含 如 下 几 个 方面 的 内 容 。 

。 RISC-V 软件 工具 链 。 

。 RISC-V 调试 工具 链 。 

e 板 级 支持 包 (Board Support Package, BSP). 

e 右 干 软件 示例 。 

Freedom-E-SDK 的 所 有 源 代码 均 开 源 托 管 于 GitHub 网 站 上 《请 在 GitHub 中 搜索 
“sifive/freedom-e-sdk”)， 如 图 19-1 所 示 。 目 前 Freedom-E-SDK x ff SiFive 公司 的 所 有 硬件 


Bauh master = New pull request 


X Ababil Merge puli rique #82 from sfvereStdhrystone == 


& muntis 5o 





Ae a mido reep ésser sent 


图 19-1 Freedom-E-SDK 的 GitHub 网 站 
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19.2 ERAZTEN 


19.2.1  SIRV-E-SDK 简介 


Freedom-E-SDK 提供 非常 优秀 的 艇 入 式 软 件 开 发 环境 ， 感 谢 SiFive 公司 将 其 开源 。 为 
了 让 用 户 能 够 轻松 使 用 蜂鸟 E200 处 理 器 核 开 发 软件 ，E200 开源 项 目 也 以 Freedom-E-SDK 
为 蓝本 ， 在 其 基础 上 做 了 如 下 主要 修改 。 
。 为 不 同 的 蜂鸟 E200 系列 处 理 器 核 创建 了 BSP 子 目录 。 
。 去 除了 一 些 不 必要 的 目录 和 文件 。 
。 去 除了 一 些 不 相关 的 软件 示例 ， 对 软件 示例 进行 了 若干 修改 。 
e 去 除了 GNU Toolchain 和 OpenOCD 源 代码 , 无 须 编 译 生 成 工具 链 , 而 是 使 用 预先 编 
译 好 的 工具 链 。 
为 了 方便 读者 理解 区 别 ， 本 书 将 “修改 后 的 Freedom-E-SDK〈 服 务 蜂鸟 E200 处 理 器 核 
系列 )” 称 为 “SIRV-E-SDK”。 
值得 强调 的 是 ， 由 于 蜂鸟 E200 开源 处 理 器 和 SoC (HBird-E200-SoC) 5 SiFive 公司 的 
Freedom E310 SoC 完全 软件 兼容 ， 因 此 理论 上 Freedom-E-SDK 软件 开发 平台 应 该 可 以 完全 
无 颖 地 被 移植 到 HBird-E200-SoC 上 ， 那 么 为 何 还 要 创建 一 个 修改 版 的 SIRV-E-SDK W? 主 
要 基于 如 下 原因 。 
e SIRV-E-SDK 的 主要 目的 在 于 演示 ， 演 示 HBird-E200-SoC HJ FPGA 原型 平台 运行 示 
例 程 序 。 
。 SIRV-E-SDK 删除 了 一 些 不 相干 的 文件 和 目录 ， 相 比 Freedom-E-SDK 更 加 人 简洁 ， 方 
便 初 学 者 能 够 理解 和 上 手 。 
e JẸ Freedom-E-SDK 平台 需要 下 载 GNU Toolchain 和 OpenOCD 的 源 代码 ， 然 后 编译 
生成 工具 链 ， 由 于 其 源 代码 体积 非常 巨大 ， 整 个 过 程 耗 时 耗 力 。 而 SIRV-E-SDK 则 
直接 使 用 预先 编译 好 的 工具 链 ， 因 此 整个 SIRV-E-SDK 的 代码 量 很 小 ， 方 便 读 者 快 
速 从 GitHub 上 下 载 并 搭建 成 型 。 
e JẸ Freedom-E-SDK 平台 为 了 成 为 一 个 通用 平台 ， 因 此 被 不 断 地 维护 和 更 新 ， 有 更 多 
的 软件 示例 和 功能 在 不 断 地 添加 。 如 果 E200 开源 项 目 直接 使 用 其 源 平台 , 则 难免 会 
出 现 某 些 更 新 过 程 中 带 来 的 错误 。 因 此 SIRV-E-SDK 更 追求 稳定 ， 一 旦 稳定 后 将 停 
止 修改 ， 以 方便 用 户 能 够 稳定 地 使 用 HBird-E200-SoC 进行 示例 软件 的 移植 和 演示 ， 
帮助 用 户 更 好 地 学 习 蜂 鸟 E200 处 理 器 核 。 
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注意 : SIRV-E-SDK 的 初衷 只 是 为 了 演示 简单 的 软件 示例 并 使 其 稳定 , 以 方便 用 户 在 GitHub 
中 下 载 使 用 , 蜂鸟 E200 将 专门 维护 一 个 独立 的 GitHub 仓库 (请 在 GitHub 中 搜索 “hbird-e-sdk”)， 
用 于 管理 和 维护 蜂 乌 E200 的 软件 开发 套件 SDK)， 并 配套 相关 文档 进行 系统 讲解 。 


19.2.2 SIRV-E-SDK 代码 结构 
SIRV-E-SDK 目录 位 于 e200 opensource 下 的 一 个 单独 子 目录 ， 其 代码 结构 如 下 所 示 。 


e200 opensource 


|----sirv-e-sdk // 存放 sirv-e-sdk 的 目录 
|----bsp // 存放 板 级 支持 包 (Board Support Package) 的 目录 
|----drivers // 存放 底层 驱动 代码 的 目录 
| ----env // 存放 不 同 平台 的 配置 文件 夹 


|----sirv-e201-arty // 基于 E201 Core 平台 的 配置 文件 夹 
|----Sirv-e203-arty // 基于 E203 Core 平台 的 配置 文件 夹 
|----sirv-e205-arty // 基于 E205 Core 平台 的 配置 文件 来 
|----sirv-e205fd-arty  // 基于 E205fd Core 平台 的 配置 文件 夹 


|----include A 
[7---libwtap / / 
[-7---tools / / 
----gsgoftware Ay 
|----demo gpio / / 
| ----coremark / / 
| ----dhrystone / / 
|----work / / 
|----Makefile /JY 
各 个 主要 的 代码 模块 简 述 如 下 。 


存放 一 些 头 文件 
存放 一 些 库 文件 

存放 一 些 工具 脚本 文件 
存放 示例 程序 的 源 代码 
GPIO 示例 程序 
CoreMark 跑 分 程序 
Dhrystone 跑 分 程序 
存放 工具 链 的 目录 

主 Makefile 文件 


e bsp/drivers 目录 主要 用 于 一 些 驱 动 程序 代码 ,譬如 PLIC 模块 的 底层 驱动 函数 和 代码 。 
e bsp/include 目录 下 主要 存放 包含 SoC 中 外 设 模块 的 寄存 器 地 址 等 参数 的 头 文件 。 

。 bsp/libwrap 目录 主要 存放 一 些 与 硬件 平台 相关 的 底层 库 函 数 的 具体 实现 ， 这 是 秽 入 式 
开发 平台 为 了 能 够 支持 完整 的 C/C++ 标准 库 函 数 而 必须 进行 的 移植 工作 。 壁 如 最 典型 
HJ printf 函数 ， 由 于 在 租 入 式 平 台中 没有 显示 屏 ， 常 见 的 做 法 是 将 艇 入 式 开发 板 通 过 
UART 接口 与 主机 PC 的 串口 连接 , 然后 将 printf 函数 打印 的 信息 通过 主机 PC 的 串口 
打印 显示 在 主机 的 电脑 屏幕 上 。 因此 需要 将 printf 库 函 数 调用 的 最 底层 函数 write 函数 
进行 移植 , 最 底层 的 write 函数 将 同 UART 的 某 些 寄存 器 发 起 写 操作 , 从 而 通过 UART 
发 送 字符 串 至 主机 PC 串口 。bsp/libwrap 目录 下 存放 的 便 是 最 底层 函数 的 移植 实现 。 
bsplenv 目录 主要 用 于 存放 不 同 board. 的 相关 文 持 包 ， 辟 如 bsp/env/sirv-e203-arty X 
件 夹 存 放 的 是 使 用 Arty FPGA FRIR (GEF E203 处 理 器 核 的 SoC〉 的 支持 包 。 另 
外 ,bsp/env 目录 下 还 存放 其 他 文 持 文件 , 譬如 common.mk 作为 一 个 公用 的 Makefile 
脚本 ，start.S 作为 程序 的 上 电 引 导 程 序 ， 和 其 他 的 着 干 头 文件 。 
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e software 目录 主要 存放 软件 示例 ， 包 括 一 个 基本 的 demo. gpio 示例 、dhrystone 跑 分 
程序 和 CoreMark 跑 分 程序 。 每 个 示例 均 有 其 单独 的 文件 夹 ， 包 含 了 各 自 的 源 代 码 、 
Makefile 和 编译 选项 (在 Makefile 中 指定 ) 等 。 


19.3 本 :ELM 


E200 开源 项 目 提供 一 个 典型 的 示例 程序 demo gpio, 可 运行 于 第 18.3 节 中 介绍 的 Xilinx 
Arty 开发 板 上 〈 基 于 HBird-E200-SoC)， 可 以 使 用 SIRV-E-SDK 平台 按照 如 下 步 又 运行 。 


// 注意 : 下 列 步骤 的 完整 描述 也 被 记载 于 e200 opensource 项 目的 doc 目录 中 的 SoC Quick Start 
Guide 文档 ， 以 便于 读者 直接 复制 进行 重 现 。 





// 步骤 一 : 准备 好 自己 的 电脑 环境 ,可 以 在 公司 的 服务 器 环境 中 运行 ， 如 果 是 个 人 用 户 ,， 推荐 如 下 配置 。 
(1) 使 用 VMware 虚拟 机 在 个 人 电脑 上 安装 虚拟 的 Linux 操作 系统 。 
(2) 由 于 Linux 操作 系统 的 版 本 众多 ， 推 荐 使 用 Ubuntu 16.04 版 本 的 Linux 操作 系统 
有 关 如 何 安装 VMware 以 及 Ubuntu 操作 系统 本 书 不 做 介绍 ， 有 关 Linux 的 基本 使 用 本 书 
也 不 做 介绍 ， 请 读者 自行 查阅 资料 学 习 。 





// 步骤 二 : 将 e200 opensource 项 目下 载 到 本 机 Linux 环境 中 ， 使 用 如 下 命令 。 


git clone https://github.com/SI-RISCV/e200 opensource.git 
// 经 过 此 步骤 将 项 目 克 隆 下 来 ， 本 机 上 即 可 具有 如 第 17.1 节 中 所 述 完整 的 
// e200 opensource 目录 文件 夹 ， 假 设 该 目录 为 <your_e200 dir>， 后 文 将 使 用 该 缩 





// 步骤 三 : 由 于 编译 软件 程序 需要 使 用 到 GNU 工具 链 , 假设 使 用 完整 的 riscv-tools 来 自己 编译 GNU 
工具 链 则 费时 费力 ， 因 此 本 书 推荐 使 用 预先 已 经 编译 好 的 Gcc 工具 链 。 作 者 已 经 将 工具 链 上 传 至 网 盘 ， 网 盘 
具体 地 址 记载 于 e200 opensource MH prebuilt tools 目录 的 README 中 ， 用 户 可 以 在 网 盘 中 的 
“RISC-V Software Tools/RISC-V GCC 201801 Linux ”目录 下 载 讨 缩 包 gnu-mcu-eclipse-riscv- 
none-gcc-7.2.0-2-20180111-2230-centos64.tgz 和 gnu-mcu-eclipse-openocd-0.10.0-6- 
20180112-1448-centos64.tgz， 然 后 按照 如 下 步骤 解压 使 用 。 注意: 上 述 链接 网 盘 上 的 工具 链 可 能 会 
不 断 更 新 ， 用 户 请 注意 自行 判断 使 用 最 新 日 期 的 版 本 ， 下 列 步骤 仅 为 特定 版 本 的 示例 。) 


cp gnu-mcu-eclipse-riscv-none-gcc-7.2.0-2-20180111-2230-centos64.tgz -/ 
cp gnu-mcu-eclipse-openocd-0.10.0-6-20180112-1448-centos64.tgz -/ 
// 将 两 个 压缩 包 均 复制 到 用 户 的 根 目录 下 


ed ~/ 
tar -xzvf gnu-mcu-eclipse-riscv-none-gcc-7.2.0-2-20180111-2230-centos64.tgz 
tar -xzvf gnu-mcu-eclipse-openocd-0.10.0-6-20180112-1448-centose4.tgz 


// 进入 根 目 录 并 解压 上 述 两 个 压缩 包 ， 解 压 后 可 以 看 到 一 个 生成 的 gnu-mcu-eclipse 文件 夹 
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cd <your e200 dir>/sirv-e-sdk 

// 进入 e200 opensource 的 sirv-e-sdk 目录 文件 夹 
mkdir -p work/build/openocd/prefix 

// 在 sirv-e-sdk 目录 下 创建 上 述 这 个 prefix 目录 
cd work/build/openocd/prefix 

// 进入 prefix 该 目录 


ln -s -/gnu-mcu-eclipse/openocd/0.10.0-6-20180112-1448/bin bin 
// 将 用 户 根 目录 下 解压 的 OpenOcD 目录 下 的 bin 目录 作为 软 链接 链接 到 
// 该 prefix 目录 下 


cd «your e200 dir»/sirv-e-sdk 
// 再 次 进入 e200 opensource 的 sirv-e-sdk 目录 文件 夹 

mkdir -p work/build/riscv-gnu-toolchain/riscv32-unknown-elf/prefix/ 
// 在 sirv-e-sdk 目录 下 创建 上 述 这 个 prefix 目录 

cd work/build/riscv-gnu-toolchain/riscv32-unknown-elf/prefix 


// 进入 Prefix 该 目录 


ln -s -/gnu-mcu-eclipse/riscv-none-gcc/7.2.0-2-20180111-2230/bin bin 
// 将 用 户 根 目 录 下 解压 的 GNU Toolchain 目录 下 的 bin 目录 作为 软 链接 链接 到 
// 该 prefix 目录 下 


// 步骤 四 : 按照 第 18 .3 节 中 所 述 方法 ， 准备 好 基于 HBird-E200-SoC 的 Xilinx Arty FPGA 原型 
FEHR, 并 将 bitstream 文件 或 者 mos 文件 烧 录 至 FPGA 中 FPGA 通电 待命 ， 且 用 JTAG 调试 器 将 Arty F 
发 板 与 主机 PC 连接 ， 并 确保 JTAG 调试 器 的 USB 接口 被 虚拟 机 Linux 系统 正确 识别 。 


// 步骤 五 ， 编译 demo gpio 示例 程序 ， 使 用 如 下 命令 。 


cd <your e200 dir>/sirv-e-sdk 


// 再 次 进入 e200 opensource 目录 文件 夹 下 面 的 sirv-e-sdk 目录 。 


make software PROGRAM=demo gpio BOARD=sirv-e203-arty 
// 运行 该 命令 指明 需要 使 用 bsp/enyv 目录 下 的 sirv-e203-arty 板 级 支持 包 编译 
// demo gpio 示例 程序 。 


// 步骤 六 : 将 编译 好 的 demo gpio 程序 下 载 至 FPGA 原型 开发 板 中 ， 使 用 如 下 命令 。 


cd <your e200 dir>/sirv-e-sdk 


// 再 次 进入 e200 opensource 目录 文件 夹 下 面 的 sirv-e-sdk 目录 。 


make upload PROGRAM-demo gpio BOARD-sirv-e203-arty 
// 运行 该 命令 指明 需要 使 用 bsp/env 目录 下 的 sirv-e203-arty 板 级 支持 包 下 载 
// demo gpio 示例 程序 至 FPGA 开发 板 中 。 
// 该 过 程 的 原理 是 调用 GDB 和 openocp 软件 通过 JTAG 调试 器 将 编译 好 的 demo_gpio 
// 程序 下 载 到 E203 处 理 器 核 中 。 
// 程序 若 下 载 成 功 ， 则 显示 如 图 19-2 所 示 。 
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// DRE: 在 FPGA 原型 平台 上 运行 demo gpio 程序 。 


// 由 于 demo gpio 示例 程序 将 通过 UART 经 过 FPGA 开发 板 的 mini-USB 接口 
// 连接 至 主机 PC， 成 为 一 个 串口 ， 打 印 一 个 Log 符号 到 主机 PC 的 显示 屏 上 。 
// 因此 需要 先 将 串口 显示 终端 准备 好 ， 在 Ubuntu 的 命令 行 终端 中 使 用 如 下 命令 。 
sudo screen /dev/ttyUSBl 115200 
// 该 命令 将 设备 ttyUSB1 设置 为 串口 显示 的 来 源 ， 波 特 率 为 115200 
// 若 该 命令 执行 成 功 的 话 ，Ubuntu 的 该 命令 行 终端 将 被 锁定 ， 用 于 显示 串口 发 送 的 字符 。 
// 香 该 命令 无 法 执行 成 功 ， 请 检查 如 下 几 项 。 
/ / (1) 确保 已 按照 第 18.3.3 节 中 所 述 方 法 将 USB 的 权限 设置 正确 。 
// (2) 确保 已 按照 第 18.3.3 节 中 所 述 方法 将 USB E Linux 虚拟 机 识别 〈 右 下 角 


/ / 显示 为 高 亮 ) 。 

/ / (3) 按照 18.3.3 节 中 所 述 使 用 命令 “1s /dev/ttyUSB*" BÆ USB 被 识别 成 为 

/ / ttyUSB1 还 是 ttyUSB2， 若 被 识别 成 为 ttyUSB2， 则 应 使 用 命令 sudo screen 
/ / /dev/ttyUSB2 115200 


// 将 主机 PC 的 串口 显示 终端 准备 好 之 后 ， 则 仅 需 按 FPGA 原型 开发 板 上 的 RESET 按键 
// 即 可 。 
按 FPGA 开发 板 上 的 RESET 按键 ， 则 处 理 器 复位 开始 执行 demo gpio 程序 ， 并 将 Log 
字符 打印 至 主机 PC 的 串口 显示 终端 上 ， 如 图 19-3 所 示 。 
由 于 本 书 侧重 于 介绍 CPU 的 硬件 设计 ， 因 此 对 于 软件 部 分 在 此 不 做 歼 述 ， 请 读者 目 行 
阅读 demo gpio 的 代码 了 解 其 程序 细节 。 





图 19-2 ”下 载 demo gpio 程序 至 FPGA 图 19-3 运行 demo_gpio 程序 后 在 主机 
JT ABUSE Ja EE] S zs E D PC 的 串口 显示 终端 上 的 Log 字符 
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19.4 EXE EESTI EE EIE 


GNU Project Debugger (GDB) 是 GNU 工具 链 中 的 调试 软件 。GDB 是 一 款 应 用 非常 广 
泛 的 调试 工具 ， 能 够 用 于 调试 C、C++、Ada 等 各 种 语言 编写 的 程序 ， 它 提供 如 下 功能 。 

。 下 载 或 者 启动 程序 。 

。 通过 设 定 各 种 特定 条 件 来 停止 程序 。 

。 查看 处 理 器 的 运行 状态 ， 包 括 通 用 寄存 器 的 值 、 存 储 器 地 址 的 值 等 。 

。 查看 程序 的 状态 ， 包 括 变量 的 值 、 函 数 的 状态 等 。 

。 改变 处 理 器 的 运行 状态 ， 包 括 通用 寄存 器 的 值 、 存 储 器 地 址 的 值 等 。 

。 改变 程序 的 状态 ， 包 括 变量 的 值 、 函 数 的 状态 等 。 

GDB 可 以 用 于 在 主机 PC 的 Linux 系统 中 调试 运行 的 程序 , 同时 也 能 用 于 调试 能 入 式 硬 
件 。 在 能 入 式 硬 件 的 环境 中 ， 由 于 资源 有 限 ， 一 般 的 嵌入 式 目 标 硬 件 上 无 法 直接 构建 GDB 
的 调试 环境 〈 璧 如 显示 屏 和 Linux 系统 等 )， 这 时 可 以 通过 GDB+GdbServer 的 方式 进行 远程 
(Remote) 调试 ， 通 第 GdbServer 在 目标 硬件 上 运行 ， 而 GDB 则 在 主机 PC 上 运行 。 

为 了 能 够 支持 GDB 对 其 进行 调试 ，HBird-E200-SoC 使 用 OpenOCD 作为 其 GdbServer， 
与 GDB 进行 配合 。Open On-Chip Debugger COpenOCD) 是 一 款 开源 的 免费 调试 软件 ， 由 社 
区 共同 维护 。 由 于 其 开放 开源 的 特点 ， 众 多 的 公司 和 个 人 使 用 其 作为 调试 软件 ， 支 持 大 多 数 
主流 的 MCU 和 硬件 开发 板 。 通 过 编写 OpenOCD 的 底层 驱动 文件 能 够 使 其 通过 JTAG 接口 
连接 HBird-E200-SoC， 并 利用 其 硬件 调试 特性 对 HBird-E200-SoC 进行 调试 。 请 参阅 第 14 
章 了 解 关 于 硬件 调试 的 具体 实现 细节 。 

为 了 能 够 完全 支持 GDB 的 功能 ， 在 使 用 GCC 对 源 代码 进行 编译 时 ， 需 要 使 用 -g 选项 ， 
例如 : 'gcc -g -o hello hello.c'. -g 选项 会 将 调试 所 需 信 息 加 入 编译 所 得 的 可 执行 程序 中 ， 因 此 
该 选项 会 增 大 可 执行 程序 的 大 小 ， 在 正式 发 布 的 版 本 中 通常 不 使 用 该 选项 。 

GDB 虽然 可 以 使 用 一 些 前 端 工具 实现 图 形 化 界面 ， 但 是 更 常见 的 是 使 用 命令 行 直接 对 
其 进行 操作 。 常 用 的 GDB 命令 介绍 如 表 19-1 所 示 。 





表 19-1 GDB 常用 命令 
* $ jt 58 
load file 动态 链 入 file 文件 ， 并 读 取 它 的 符号 表 
jump 使 当前 执行 的 程序 跳 转 到 某 一 行 ， 或 者 跳 转 到 某 个 地 址 
info br 使 用 该 指令 可 查看 断 点 信息 ,br 是 断 点 break 的 缩写 ，GDB 具有 自动 补 齐 功能 ， 此 命令 等 效 于 info break 
info source 使 用 该 指令 可 查看 当前 程序 的 信息 


info stack 使 用 该 指令 可 查看 程序 的 调用 层次 关系 
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续 表 
* F t a 
list function-name | 使 用 该 指令 可 列 出 某 个 函数 
list line-number 列 出 某 行 附近 揭 代 码 
em | 在 指定 的 函数 ， 或 者 行 号 处 设置 类 上 
break *address 在 指定 的 地 址 处 设置 断 点 ， 一 般 在 没有 源 代码 时 使 用 
continue 恢复 程序 运行 ， 直 到 过 到 下 一 个 断 点 
step 进入 下 一 行 代码 的 执行 ， 会 进入 函数 内 部 
step number 等 效 于 连续 执行 number 次 step 命令 
next 执行 下 一 行 代码 ， 但 不 会 进入 函数 内 部 
next number 等 效 于 连续 执行 number 次 next 命令 
a 继续 运行 直到 到 达 指定 行 号 ， 或 者 函数 、 地 址 等 


until line-number 


stepi stepi/nexti 命令 与 step/next 的 区 别 在 于 其 执行 下 一 条 汇编 指令 ， 而 不 是 下 一 行 代码 ( 璧 如 C/C++ 中 的 一 
nexti 行 代码 ) 

x address 打印 指定 存储 器 地 址 中 的 值 

p variable 打印 指定 变量 的 值 


按照 如 下 步骤 使 用 GDB 和 OpenOCD 对 基于 Xilinx Arty 开发 板 的 HBird-E200-SoC 原型 
平台 进行 调试 。 
// 注意 :下 列 步骤 的 完整 描述 也 被 记载 于 e200 opensource 项 目的 daoc 目录 中 的 SeCc Quick Start _ 
Guide 文档 ， 以 便于 读者 直接 复制 进行 重 现 。 


// 步骤 一 ~ 步骤 四 : 与 第 19.3 节 中 描述 的 运行 demo gpio 示例 程序 步骤 一 ~ 步骤 四 相同 。 


// 步骤 五 ;使 用 GDB+OpenOCD 远程 调试 FPGA 原型 开发 板 ， 使 用 如 下 命令 。 





cd «your e200 dir»/sirv-e-sdk 


// 再 次 进入 到 e200_ opensource 目录 文件 夹 下 面 的 sirv-e-sdk 目录 。 


// 使 用 如 下 命令 打开 OpenoCD 
make run openocd PROGRAM=demo gpio BOARD=sirv-e203-arty 
// 运行 该 命令 会 使 用 bsp/env 目录 下 的 sirv-e203-arty 板 级 支持 包 中 openocp 的 
// 配置 文件 来 打开 OpenocD， 并 与 Arzty FPGA 开发 板 相 连 。 
// 如 果 该 步骤 执行 成 功 ， 则 如 图 19-4 所 示 。 


// 由 于 命令 行 界面 已 经 被 OpenocD 挂 住 ， 因 此 需要 重新 开启 一 个 新 的 Terminal 终端 ， 
// 注意 : 再 次 强调 ， 此 处 是 重新 开启 一 个 新 的 Terminal 终端 。 
// 在 新 的 Terminal 终端 下 ， 确 保 进 入 到 e200_opensource 目录 文件 夹 下 面 
// 的 sirv-e-sdk 目录 。 
cd <your e200 dir>/sirv-e-sdk 
// 然后 使 用 如 下 命令 打开 GDB 
make run gdb PROGRAM-demo gpio BOARD-sirv-e203-arty 
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// 运行 该 命令 会 自动 打开 GDB 来 调试 demo gpio 示例 程序 。 
// 如 果 该 步 又 执行 成 功 ， 则 进入 了 GDB 的 调试 命令 行 界面 ， 如 图 19-5 所 示 。 





// 步骤 六 : 演示 使 用 GDB 命令 。 
// 接 下 来 便 可 使 用 GDB 的 常用 命令 进行 调试 。 
b main 


// 在 main 函数 的 入 口 处 设置 断 点 。 


info b 


// 查看 目前 程序 设置 的 断 点 ， 显 示 如 图 19-6 所 示 。 





x 0x20400000 

x 0x20400004 

x 0x20400008 
// 查看 存储 器 地 址 0x20400000/0x20400004/0x20400008 中 的 数值 ， 显 示 如 图 19-7 
// 所 示 。 


info reg 
info reg mstatus 


// 查看 当前 处 理 器 的 通用 寄存 器 的 值 和 CSR 寄存 器 mstatus 的 值 ， 显 示 如 图 19-8 所 示 。 


info reg csr768 
// 查看 当前 处 理 器 的 地 址 768 的 CSR 寄存 器 的 值 。 
// 注意: 编号 768 为 十 进 制 数 ， 对 应 十 六 进 制 为 0x300， 对 应 mstatus 寄存 器 的 CSR 
//| 地址。 参见 附录 B 了 解 RSIC-V 架构 的 CSR 寄存 器 列表 和 地 址 。 


info reg mcause 

info reg mepc 

info reg mtval 
// 查看 当前 处 理 器 的 CSR 寄存 器 mcause，mepc 和 mtval 的 值 。 
// 注意: 当 程 序 出 现 了 有 异常 (程序 运行 结果 显示 结果 为 Trap) 时 ， 可 以 通过 GDB 查看 此 
// ”3 个 寄存 器 的 值 有 效 的 定位 异常 的 原因 和 发 生 位 置 。 有 关 mcause、mepc 和 mtval 
// ”寄存 器 的 详情 ， 请 参见 附录 B2. 





jump main 


// 从 程序 的 main 入 口 开始 执行 ， 将 停 于 设置 的 第 一 个 断 点 处 ， 显 示 如 图 19-9 所 示 。 


ni 


// 单 步 执 行 ， 显 示 如 图 19-10 所 示 。 


continue 


// 继续 执行 ， 将 停 于 下 一 个 断 点 处 ， 若 无 断 点 ， 则 一 直 执行 至 程序 结束 处 。 








图 19-4 打开 OpenOCD 后 的 命令 行 界 面 图 19-5 GDB 的 命令 行 界 面 
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x 0x2040000€ 





19-6 GDB 显示 设置 的 断 点 图 19-7 通过 GDB 查看 存储 器 中 的 数据 





图 19-8 GDB 显示 寄存 器 的 值 





图 19-9 GDB 显示 程序 停止 于 断 点 处 图 19-10 GDB 单 步 执行 程序 
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除了 本 章 介绍 的 SDK 软件 平台 《在 Linux 环境 中 使 用 命令 行 和 脚本 操作 ) 之 外 ， 目 前 
RISC-V 还 提供 成 熟 的 、 基 于 Eclipse Windows 图 形 化 开发 界面 的 集成 开发 环境 (Integrated 
Development Environment, IDE). 

由 于 Linux $RÍEZRZUETR Z LEMEZE, 其 使 用 的 命令 行 和 脚本 操作 使 得 项 目 具 
备 更 高 的 可 重 现 性 和 高 效 的 自动 化 特性 ， 因 此 作者 更 推荐 基于 Linux 环境 的 SDK 软件 开发 
平台 。 有 关 基 于 Windows IDE 工具 内 容 ， 本 书 在 此 不 做 浆 述 ， 感 兴趣 的 读者 可 以 参见 
e200 opensource M H doc 目录 中 有 关 Windows IDE 工具 的 使 用 说 明 。 
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本 书 至 此 已 经 通过 蜂 乌 E200 处 理 器 核 为 实例 详细 介绍 了 CPU 的 硬件 设计 技巧 , 同时 也 

介绍 了 如 何 仿真 ， 以 及 如 何在 FPGA 原型 平台 上 运行 真实 的 软件 示例 。 想 必 读 者 已 经 从 硬件 
”到 软件 上 均 有 了 充分 的 认识 。 

本 章 将 对 处 理 器 的 效能 加 以 评估 , 衡量 处 理 器 的 一 个 重要 指标 是 功 耗 ， 另 一 个 重要 指标 
便 是 性 能 。 

对 于 功 耗 的 评估 ,其 大 致 与 处 理 器 的 硬件 面积 呈正 比 ， 本 书 在 第 二 部 分 中 的 各 章节 详细 
论述 了 蜂鸟 E200 处 理 器 的 微 架 构 和 设计 细节 , 在 第 4.4 节 列 举 了 蜂 乌 E200 处理 器 的 面积 数 
据 ， 可 以 看 出 蜂鸟 E200 是 一 蒜 极 为 精简 的 小 面积 超 低 功 耗 处 理 器 ， 本 书 在 此 不 再 闭 述 。 

那么 如 何 衡 量 处 理 器 设计 的 性 能 呢 ? 所 谓 “ 是 又 子 是 马 ? 拉 出 来 外 外 ”就 知道 了 ， 那 么 
对 于 处 理 器 性 能 的 评估 ， 跑 一 跑 跑 分 程序 就 知道 了 。 





20.1 Wade 


跑 分 程序 (Benchmarks) 通 曲 是 一 组 标准 的 软件 程序 ， 让 处 理 器 运行 该 标准 程 这 ， 并 通 
过 运行 速度 计算 出 一 组 分 数 ， 作 为 衡量 处 理 右 性 能 的 指标 。 

跑 分 程序 通常 由 标准 的 高 级 语言 (譬如 C/C++) 编写 ,与 底层 硬件 平台 特性 和 指令 集 架 
构 无 关 。 因 此 各 个 不 同 架 构 或 者 不 同 厂 商 的 处 理 器 均 可 以 运行 相同 的 跑 分 程序 ， 并 可 以 根据 
其 运行 所 得 的 分 数 来 对 其 性 能 进行 比较 和 衡量 。 

在 处 理 器 领域 的 跑 分 程序 非常 众多 ， 有 某 些 个 人 开发 的 ， 也 有 某 些 标准 组 织 或 者 商业 公 
司 开 发 的 跑 分 程序 ， 本 书 在 此 不 一 一 列举 。 

在 能 入 式 处 理 器 领域 最 为 知名 和 第 见 的 跑 分 程序 为 Dhrystone 和 CoreMark. 本 章 将 通过 
运行 此 两 个 跑 分 程序 来 衡量 蜂 乌 E200 处 理 器 的 性 能 。 





20.2 MEEA 


Dhrystone 是 一 个 综合 的 处 理 器 跑 分 程序 ， 由 Reinhold P. Weicker 于 1984 年 开发 ， 用 于 
衡量 处 理 器 的 整数 运算 处 理性 能 。 在 Dhrystone 的 程序 中 ， 作 者 收集 了 众多 不 同类 型 程序 中 
的 典型 特性 ， 采 用 了 各 种 典型 的 方法 ， 辟 如 函数 调用 、 间 接 指 针 、 赋 值 等 ， 使 得 该 程序 测试 
的 性 能 非常 具有 代表 性 。 

最 初版 本 的 Dhrystone 由 Ada 语言 编写 ， 之 后 的 C 语言 对 应 版 本 由 Rick Richardson 开发 ， 
使 得 Dhrystone 更 加 流行 。 由 于 被 广泛 采用 ，Dhrystone 成 为 了 当今 最 有 代表 性 的 通用 处 理 器 跑 
分 程序 ， 几 乎 每 一 款 CPU 都 必须 公布 其 Dhrystone 的 跑 分 作为 衡量 其 性 能 指标 的 重要 参数 。 
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熟悉 计算 机 体系 结构 的 读者 应 该 了 解 性 能 指标 MIPS (Million Instructions Per Second) 
的 含义 ， 其 反映 了 处 理 嚣 在 汇编 指令 级 别 执行 的 速度 。 由 于 高 级 语言 (譬如 C/C++) 编写 的 
程序 通过 不 同 处 理 器 架构 的 编译 器 编译 后 ， 生 成 的 汇编 代码 可 能 会 有 巨大 差别 。 璧 如 有 的 指 
令 集 染 构 的 代码 密度 很 高 ， 能 够 产生 少量 的 汇编 指令 便 可 完成 程序 ， 而 有 的 指令 集 染 构 的 代 
码 密度 比较 低 ， 则 需要 产生 大 量 的 汇编 指令 完成 程序 。 因 此 单纯 的 MIPS 指标 仅 能 反映 处 理 
句 执 行 汇编 指令 的 人 硬件 效率 ， 而 不 能 反映 出 处 
理 器 软 硬 件 系 统 的 综合 性 能 。 

而 Dhrystone 的 跑 分 结果 使 用 更 加 有 意义 
的 Dhrystone Per Second 作为 衡量 标准 , 表示 处 
理 器 每 秒 钟 能 够 执行 的 Dhrystone 主 循环 的 次 
数 。Dhrystone 程序 的 主 循环 由 一 个 For 循环 组 
成 ， 如 图 20-1 所 示 ， 且 可 以 通过 参数 控制 具体 
的 循环 次 数 。For 循环 内 部 则 调用 各 种 编写 的 
子 图 数 ， 这 些 子 了 图 数 便 是 Dhrystone 开发 者 刻 
意 构造 的 具有 代表 性 的 程序 代码 ,如 图 20-2 所 图 20-1 Dhrystone 程序 片段 一 
示 。 在 For 主 循环 的 开始 和 结束 部 分 均 通过 计时 器 (Timer) 读 取 出 当前 的 时 间 值 ， 如 图 20-3 
所 示 ， 最 后 通过 开始 和 结束 时 间 值 的 差 值 得 出 运行 特定 循环 次 数 的 总 执行 时 间 。 该 总 执行 时 
间 取 决 于 如 下 两 个 方面 的 效率 。 








图 20-2 Dhrystone 程序 片段 二 20-3 ”Dhrystone 程序 片段 三 


。 一 方面 取决 于 指令 集 架构 的 效率 和 编译 器 的 优 和 劣 ， 其 决定 了 高 层 语 言 编写 的 Dhrystone 
程序 能 够 编译 成 多 少 汇编 指令 。 
e 为 一 方面 取决 于 处 理 器 的 硬件 性 能 ， 其 决定 了 处 理 器 能 以 多 快 的 速度 执行 完 这 些 指 令 。 
综 上 可 见 ，DMIPS 能 够 反映 处 理 器 从 架构 、 编 译 器 到 硬件 的 综合 性 能 。 
Dhrystone 跑 分 结果 男 一 种 更 常用 的 表示 单位 是 DMIPS (Dhrystone MIPS)， 其 使 用 早期 
的 VAX 11/780 处 理 器 作为 标 称 值 ， 定 义 如 下 。 
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。 由 于 VAX 11/780 处 理 器 被 公认 能 达到 1 MIPS 的 性 能 ， 使 用 其 运行 Dhrystone 跑 分 
程序 能 够 达到 的 性 能 为 1757 Dhrystone Per Second。 因 此 将 其 作为 黄金 参考 ， 将 
Dhrystone Per Second 除 以 1757 所 得 值 称 为 1 DMIPS。 

壁 如 : 假设 某 处 理 器 能 够 每 秒 钟 执 行 2000000 次 Dhrystone 主 循环 , 则 其 性 能 约 等 于 
2000000/1757=1138 DMIPS 。 

。 在 此 基础 之 上 , 去除 处 理 器 主 频 的 因素 , 假设 处 理 器 以 1MHz 的 主 频 运 行 Dhrystone 
所 得 的 DMIPS 结果 则 为 DMIPS/MHz， 该 种 表示 方式 也 极为 常见 。 

壁 如 ; 假设 前 述 处 理 器 (1138 DMIPS) 运行 主 频 为 1GHz， 则 其 性 能 指标 也 可 表示 
为 1138/1000=1.138 DMIPS/MHz. 





20.3 运行 Dhrystone Benchmark 


Dhrystone Benchmark 可 运行 于 第 18.2 节 中 介绍 的 HBird-E200-SoC FPGA 原型 平台 中 ( 基 
F Xilinx Arty 开发 板 )， 使 用 第 19.2 节 中 介绍 的 SIRV-E-SDK 软件 平 全 按照 如 下 步骤 运行 。 


// 注意 : 下 列 步 又 的 完整 描述 也 被 记载 于 e200 opensource 项 目的 doc 目录 中 的 
SoC Quick Start Guide 文档 ， 以 便于 读者 直接 复制 进行 重 现 。 





// 步骤 一 ~ PRA: 与 第 19.3 节 中 描述 的 运行 demo gpio 示例 程序 步骤 一 ~ 步骤 四 相同 。 


// 步骤 五 : 编译 Dhrystone 示例 程序 ， 使 用 如 下 命令 。 


cd <your e200 dir>/sirv-e-sdk 


// 确保 进入 e200 opensource 目录 文件 夹 下 面 的 sirv-e-sdk 目录 。 


make software PROGRAM=dhrystone BOARD=sirv-e203-arty 
// 运行 该 命令 指明 需要 使 用 bsp/env 目录 下 的 sirv-e203-arty 板 级 支持 包 编 译 
// dhrystone 示例 程序 。 





// 步骤 六 : 将 编译 好 的 Dhrystone 程序 下 载 至 FPGA 原型 开发 板 中 ， 使 用 如 下 命令 。 


cd <your e200 dir>/sirv-e-sdk 


// 确保 进入 e200 opensource 目录 文件 夹 下 面 的 sirv-e-sdk 目录 。 


make upload PROGRAM-dhrystone BOARD-sirv-e203-arty 
// 运行 该 命令 指明 需要 使 用 bsp/env 目录 下 的 sirv-e203-arty 板 级 支持 包 下 载 
| // dhrystone 示例 程序 至 FPGA 开发 板 中 。 
| // 该 过 程 的 原理 是 调用 GDB 和 Oopenocp 软件 ， 通 过 JTAG 调试 器 将 编译 好 的 dhrystone 
| // 程序 下 载 到 E203 处 理 器 核 中 。 
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// 步骤 七 : 在 FPGA 原型 平台 上 运行 Dhrystone 程序 。 


// 由 于 示例 程序 将 需要 通过 UART 打印 结果 到 主机 Pc 的 显示 屏 上 。 参 考 第 19.3 节 中 
// 运行 demo gpio 示例 程序 的 步骤 七 将 串口 显示 电脑 屏幕 设置 好 ， pesi 的 打印 信 
// 息 能 够 显示 在 电脑 屏幕 上 。 


// 由 于 步骤 六 已 经 将 程序 烧 写 进 FPGA 开发 板 的 Flash 之 中 ， 因 此 每 次 按 FPGA 开发 板 的 
// RESET 按键 ， 则 处 理 器 复位 开始 执行 Dhrystone 程序 ， 并 将 Log 字符 打印 至 主机 PC 
// 的 串口 显示 终端 上 。 从 其 打印 的 结果 我 们 可 以 看 出 E203 A8 8281217 Dhrystone 程 
// 序 的 结果 性 能 指标 ， 如 图 20-4 所 示 。 
注意 : 目前 蜂鸟 E200 系列 中 开源 的 处 理 器 型 号 为 E203。 因 此 读者 无 法 运行 其 他 型 号 的 
处 理 器 核 得 到 其 Dhrystone 分 数 。 但 本 书 将 E201 5 E205 的 运行 分 数 也 在 此 加 以 列举 ， 以 方 
便 对 比 。 
图 20-4、 图 20-5 和 图 20-6 分 别 显 示 了 E203、E201 和 E205 运行 Dhrystone 所 得 跑 分 ， 
从 中 可 以 看 出 E205 得 分 1.355 DMIPS/Hz 高 于 E201 的 分 数 1.171 DMIPS/Hz。 这 是 因为 E205 
中 使 用 了 单 周 期 的 硬件 乘法 器 和 多 周期 的 硬件 除法 器 ， 而 E201 并 没有 硬件 的 乘法 堪 和 除法 
器 。 可 见 硬件 乘除 法 单元 对 于 Dhrystone 跑 分 有 一 定 的 帮助 。 








20-4 E203 Core 运行 Dhrystone Benchmark 图 20-5 E201 Core 运行 Dhrystone Benchmark 
后 于 主机 串口 终 病 上 最 示 分 数 后 于 主机 串口 终端 上 显示 分 数 
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图 20-6 E205 Core 运行 Dhrystone Benchmark 后 于 主机 串口 终端 上 显示 分 数 


20.4 


CoreMark 也 是 一 个 综合 的 处 理 器 Benchmark 程序 ， 由 非 营利 组 织 Embedded 
Microprocessor Benchmark Consortium (EEMBC) 的 Shay Gal-On 于 2009 年 开发 。CoreMark 
程序 的 源 代 码 的 体 量 与 Dhrystone 一 样 非常 小 ， 因 此 可 以 运行 在 包括 极 低 功 耗 微 处 理 器 在 内 
的 各 种 处 理 器 上 。 并 且 EEMBC 网 站 免费 提供 CoreMark 程序 的 源 代码 下 载 ， 目 的 是 使 
CoreMark 能 够 成 为 一 种 行业 标准 的 Benchmark 程序 ， 以 替代 年 代 久 远 的 Dhrystone。 

CoreMark 程序 由 C 语言 编写 ， 包 含 了 很 多 典型 的 算法 ， 壁 如 链表 操作 、 和 矩阵 运算 、 状 态 
机 (用 来 确定 输入 流 中 是 否 包 含有 效 数 字 ) 和 循环 元 余 校 验 (CRC)。 这 些 算法 尤其 在 获 入 式 
领域 的 软件 中 极为 常见 , 因此 CoreMark 在 散 入 式 领 域 被 认为 比 Dhrystone 更 加 具有 代表 意义 ， 
很 多 峙 入 式 领 域 的 CPU 都 公布 了 其 CoreMark 的 跑 分 作为 衡量 其 性 能 指标 的 重要 参数 。 

CoreMark 结果 的 表示 方法 与 Dhrystone 相似 ， 使 用 Number of iterations per second 作为 
衡量 标准 ， 表 示 处 理 器 每 秒 钟 能 够 执行 的 CoreMark 主 循环 的 次 数 。CoreMark 程序 的 主 循环 
也 由 一 个 欠 代 循环 组 成 ， 如 图 20-7 所 示 ， 且 可 通过 参数 控制 具体 的 循环 次 数 。 循 环 内 部 则 
调用 各 种 编写 的 子 函数 ， 如 图 20-8 所 示 。 在 主 循环 的 开始 和 结束 部 分 均 通 过 计时 器 读 取 出 
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当前 的 时 间 值 ， 如 图 20-9 所 示 。 最 后 通过 
开始 和 结束 时 间 值 的 差 值得 出 运行 特定 循 
环 次 数 的 总 执行 时 间 ,， 并 依 此 计算 出 单位 时 
间 内 能 够 运行 的 循环 次 数 。 在 此 基础 之 上 ， 
除 以 处 理 器 主 频 的 因素 ， 则 可 以 计算 出 
CoreMark/Hz. 

譬如 : 假设 某 处 理 器 以 20MHz 的 主 频 运 
行 CoreMark, 程序 能 够 达到 每 秒 执行 50 次 主 
循环 则 其 性 能 为 50/20=2.5 CoreMark/MHz. 





图 20-7 CoreMark 程序 片段 一 





图 20-8 ”CoreMark 程序 片段 二 图 20-9 ”CoreMark 程序 片段 三 





运行 CoreMark Benchmark 


20.5 


CoreMark Benchmark 可 运行 于 第 18.2 市 中 介绍 的 HBird-E200-SoC FPGA 原型 平台 (基于 
Xilinx Arty 开发 板 ) 中 ， 使 用 第 19.2 节 中 介绍 的 SIRV-E-SDK 软件 平台 按照 如 下 步骤 运行 。 


// 注意 :下 列 步骤 的 完整 描述 也 被 记载 于 e200 opensource 项 目的 doc 目录 中 的 SoC Quick Start 
Guide 文档 ， 以 便于 读者 直接 复制 进行 重 现 。 








// 步骤 一 ~ PRA: 与 第 19.3 节 中 描述 的 运行 demo gpio 示例 程序 步骤 一 ~ 步骤 四 相同 。 


| // BRA: 下 载 CoreMark 的 源 代码 
| // 由 于 未 经 EEMBC 运行 不 得 擅自 转发 CoreMark 程序 的 源 代 码 ， 因 此 需要 用 户 自 行 于 
// EEMBC 网 站 上 下 载 CoreMark 的 程序 源 代码 。 
// 将 下 载 压缩 包 中 的 如 下 文件 复制 至 sirv-e-sdk/software/coremark 目录 下 。 
core list join.c 
core main.c 
coremark.h 
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core matrix.c 
core state.c 
Core util.c 


// 步骤 六 : 编译 CoreMark 示例 程序 ， 使 用 如 下 命令 。 


cd «your e200 dir»/sirv-e-sdk 


// 再 次 进入 e200 opensource 目录 文件 夹 下 面 的 sirv-e-sdk H3. 


make software PROGRAM-coremark BOARD-sirv-e203-arty 
// 运行 该 命令 指明 需要 使 用 bsp/env 目录 下 的 sirv-e203-arty 板 级 支持 包 编 译 
// coremark 示例 程序 。 


// 步骤 七 : 将 编译 好 的 CoreMark 程序 下 载 至 FPGA 原型 开发 板 中 ， 使 用 如 下 命令 。 


cd <your e200 dir>/sirv-e-sdk 


// 再 次 进入 e200 opensource 目录 文件 夹 下 面 的 sirv-e-sdk 目录 。 


make upload PROGRAM-coremark BOARD-sirv-e203-arty 
// 运行 该 命令 指明 需要 使 用 bsp/env 目录 下 的 sirv-e203-arty 板 级 支持 包 下 载 
// coremark 示例 程序 至 FPGA 开发 板 中 。 
// 该 过 程 的 原理 是 调用 GDB 和 OpenOCD 软件 ， 通 过 JTAG 调试 器 将 编译 好 的 coremark 
// 程序 下 载 到 E203 处 理 器 核 中 。 


// 步骤 八 : 在 FPGA 原型 平台 上 运行 CoreMark 程序 。 


// 由 于 示例 程序 将 需要 通过 VART 打印 结果 到 主机 PC 的 显示 屏 上 。 参 考 第 19.3 节 中 
| // 运行 demo gpio 示例 程序 的 步骤 七 将 串口 显示 电脑 屏幕 设置 好 ， 并 使 得 程序 的 打印 信 
| // 息 能 够 显示 在 电脑 屏幕 上 。 
| / / 
// 由 于 步骤 六 已 经 将 程序 烧 写 进 FPGA 开发 板 的 Flash 之 中 ， 因 此 每 次 按 FPGA 开发 板 的 
// RESET 按键 ， 则 处 理 器 复位 开始 执行 CoreMark 程序 ， 并 将 Log 字符 打印 至 主机 PC 
// 的 串口 显示 终端 上 。 从 其 打印 的 结果 我 们 可 以 看 出 E203 处 理 器 运行 CoreMark 跑 分 程 
// 序 的 结果 性 能 指标 ， 如 图 20-10 所 示 。 

注意 : 目前 蜂鸟 E200 系列 中 开源 的 
处 理 器 型 号 为 E203。 因 此 读者 无 法 运行 
其 他 型 号 的 处 理 器 核 得 到 其 CoreMark 分 
数 。 但 本 书 将 E201 与 E205 的 运行 分 数 也 
在 此 加 以 列举 ， 以 方便 对 比 。 

图 20-10、 图 20-11 和 图 20-12 分 别 显 
示 」E203、E201 和 E205 运行 CoreMark 
所 得 跑 分 , 从 中 可 以 看 出 E205 得 分 3.327 图 20-10 E203 Core 运行 CoreMark Benchmark 
CoreMark/Hz 远 远 高 于 E201 的 分 数 1.352 后 于 主机 串口 终端 上 显示 分 数 


CoreMark/Hz。 这 是 因为 E205 中 使 用 了 单 周 期 的 硬件 乘法 器 和 多 周期 的 硬件 除法 器 ， 而 E201 
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并 没有 硬件 的 乘法 器 和 除法 器 ， 可 见 硬 件 乘除 法 单元 对 于 CoreMark 的 跑 分 帮助 非常 显 者 。 








图 20-11 E201 Core 运行 CoreMark Benchmark 图 20-12 E205 Core 运行 CoreMark Benchmark 
后 于 主机 串口 终端 上 显示 分 数 后 于 主机 串口 终端 上 显示 分 数 


20.6 Exi: 


由 于 Dhrystone 和 CoreMark 均 只 使 用 了 整数 运算 类 型 ， 因 此 并 不 能 衡量 浮 点 运算 处 理性 能 。 
对 于 处 理 器 的 浮 点 性 能 指标 ， 有 众多 专门 的 浮 点 Benchmark 程序 能 够 运行 ,本 书 在 此 不 做 介绍 。 

通过 上 述 运行 结果 ， 可 以 总 结 蜂 乌 E200 处 理 右 核 的 Benchmark 分 数 与 主流 的 ARM 
Cortex-M 系列 处 理 器 的 Benchmark 分 数 对 比 ， 如 表 20-1 所 示 。 

从 表 20-1 可 以 看 出 ， 蜂 鸟 E203 功 耗 面积 和 性 能 均 不 逊色 于 ARM 的 Cortex-M0+ 处 理 嚣 核 
(M0+ 是 ARM 最 小 面积 的 处 理 器 核心 )， 蜂 乌 E205 功 耗 面积 和 性 能 均 不 逊色 于 ARM 的 
Cortex-M3 处 理 器 核 。 

注意 : 有 关 ARM Cortex-M 系列 处 理 器 核 的 性 能 数据 来 自 于 本 书 撰写 之 时 收集 的 公开 信息 ， 
非 官方 数据 ， 本 书 对 其 正确 性 不 做 保证 ， 请 读者 以 最 新 ARM 官方 数据 为 准 。 

表 20-1 16 E200 系列 处 理 器 核 与 ARM Cortex-M 处 理 器 核 的 Benchmark 结果 对 比 


Benchmarks ARM Cortex-MO | ARM Cortex-MO* ARM Cortex-M3 m MA "5 
E201 E203 E205 


0.84 0.94 
Dhrystone (Official) (Official) 
1.25 1.17 1.23 1.35 
(DMIPS/MHz) 1.21 1.31 
(Max options) (Max options) 


CoreMark 
2.33 2.42 3.32 1.35 2.14 3.32 
(CoreMark/MHz) 
12K 36K 12K 20K 





最 小 配置 逻辑 门 数 
12K 
(K Gates) 
it: Cortex-M0+ 的 乘法 器 可 以 配置 成 单 周 期 乘法 器 或 多 周期 从 代 乘法 器 。Dhrystone 性 能 数据 与 CoreMark 性 能 数据 是 采用 单 
周期 乘法 还 是 多 周期 乘法 器 的 信息 不 详 
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当前 RISC-V 架构 文档 主要 分 为 : 

。 “指令 集 文档 ”(riscv-spec-v2.2.pdf) 

。 “特权 架构 文档 ”(risev-privileged-v1.10.pdf) 

注意 : 以 上 文档 版 本 号 为 本 书 撰写 之 时 的 最 新 版 本 ，RISC-V 的 染 构 文档 还 在 不 断 地 丰 
富 和 更 新 ， 但 是 指令 集 架 构 的 基本 面 〈 本 书 介绍 部 分 ) 已 经 确定 ， 不 会 再 修改 。 如 第 2.1.1 
节 所 述 ， 读 者 可 以 在 RISC-V 基金 会 的 网 站 上 注册 和 关注 ， 并 免费 下 载 其 完整 原文 。 

请 参见 第 2 章 了 解 有 关 RISC-V 指令 集 的 特点 和 概述 。RISC-V 指令 集 本 喘 是 模块 化 的 
指令 集 ， 可 以 灵活 地 进行 组 合 ， 具 有 相当 多 的 可 配置 型 。 蜂 鸟 E200 处 理 器 核 系 列 支 持 如 下 
模块 化 指令 集 。 

e 32 位 : 32 位 地 址 空间 ， 通 用 寄存 器 宽度 32 位 。 

e I: 支持 32 个 通用 整数 寄存 器 。 

e M: 文 持 整数 乘法 与 除法 指令 。 

e A: 支持 存储 器 原子 (Atomic) 操作 指令 和 Load-Reserved/Store-Conditional 指令 。 

e。 F: 文 持 单 精度 浮 点 指令 。 

e D: 支持 双 精 度 浮 点 指令 。 

e C: 支持 编码 长 度 为 16 位 的 压缩 指令 ， 提 高 代码 密度 。 

e Machine Mode Only: 只 支持 机 器 模式 。 

按照 RISC-V 架构 命名 规则 ， 以 上 指令 子 集 的 组 合 可 表示 为 RV32IMAFDC。RISC-V 架构 定义 
IMAFD 为 通用 组 合 (General Purpose), 以 字母 G 表示 , 因此 RV32IMAFDC 也 可 表示 为 RV32GC. 

RV32GC 是 最 常见 的 32 位 RISC-V 指令 集 组 合 ， 因 此 附录 仅 介 绍 RV32GC 相关 的 指令 
集 ， 以 便 读 者 快速 学 习 并 掌握 RISC-V 架构 的 基本 指令 集 知 识 。 关 于 本 书 未 了 予 介绍 的 其 他 指 
令 子 集 细 节 ， 感 兴趣 的 读者 请 参见 RISC-V 架构 的 “指令 集 文档 ”原文 。 
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00 RV32E ANEDE NINE CHOPPER 


RISC-V HEA ARARE (HFE ERR), DUIS 16 个 通用 整数 寄存 器 组 成 
Aa J3EXERITOBGOKARUEIIRLTA EDU FERI BRUN SA e 
除 此 之 外 ，RISC-V AERIS EOS BLAN GR M de üt T — 5 FER ARMEN. 
e DINE 32 位 架构 ， 在 64 或 128 MRTA RE. BMRA 
RV32E， 而 没有 RV64E. 
。 在 嵌入 式 架 构 中 推荐 使 用 压缩 指令 子 集 (由 字母 C 表示 )， 即 RV32EC， 以 增加 纶 入 
式 系统 中 关注 的 代码 密度 。 
。 在 骨 入 式 架 构 中 不 支持 浮 点 指令 子 集 。 如 果 需 要 选择 支持 浮 点 指令 子 集 (F 或 者 D), 
则 必须 使 用 非典 入 式 架 构 (RV32I 而 非 RV32E )。 
e 髓 入 式 架 构 仅 支持 机 器 模式 (Machine Mode) 与 用 户 模式 (User Mode)， 不 支持 其 
他 的 特权 模式 。 
e 风 入 式 架 构 仅 支持 直接 的 物理 地 址 管理 ， 而 不 支持 虚拟 地 址 。 
除了 上 述 约束 之 外 ，RV32E 的 其 他 特性 与 基本 的 整数 指令 架构 (RV32I) 完全 相同 ， 因 
此 本 书 对 RV32E 架构 不 再 效 述 。 


A3 蜂 乌 E200 支持 的 指令 列表 


注意 : 由 于 蜂鸟 E200 是 一 个 处 理 器 系列 ， 并 非 每 一 个 型 号 的 蜂鸟 E200 处 理 器 核 均 支 
持 Al 中 所 述 的 所 有 指令 子 集 。 以 开源 的 E203 处 理 器 核 为 例 ， 由 于 它 默 认 支 持 的 架构 为 
RV32IMAC, 因此 其 仅 支持 RV321MAC 相关 的 指令 子 集 , 其 他 型 号 (E201/E205/E205f/E205fd) 
同 理 。 有 关 蜂 鸟 E200 处 理 器 的 不 同型 号 及 其 默认 支持 的 架构 ， 请 参见 第 A3. 


O ECO CE 


ft RISC-V 架构 中 ， 寄 存 器 组 主要 包括 通用 寄存 器 (General Purpose Registers) 和 控制 
状态 寄存 器 (Control and Status Register; CSR). 


A4.1 通用 宥 存 器 组 
对 于 通用 寄存 器 组 ，RISC-V 架构 规定 如 下 。 
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e。 如 果 使 用 的 是 基本 整数 指令 子 集 (由 字母 I 表 示 ), 那么 RISC-V 架构 包含 32 个 通用 
整数 寄存 器 ， 由 代号 x0 一 x31 表示 。 
其 中 通用 整数 寄存 器 x0 被 预 留 为 常数 0， 其 他 31 个 Od x3 D 为 普通 的 通用 整数 寄存 器 。 
在 RISC-V 的 架构 中 , 通用 寄存 器 的 宽度 由 XLEN 这 个 术语 表示 。 如果 是 32 位 架构 (由 
RV32I 表示 )， 每 个 寄存 器 的 宽度 为 32 位 ， 如 果 是 64 位 架构 (由 RV64I 表示 )， 每 个 寄存 器 
的 宽度 为 64 位 。 
。 如 果 使 用 的 是 坐 入 式 架 构 〈 由 字母 E 表示 )， 那 么 RISC-V 染 构 包含 16 个 通用 整数 
寄存 器 ， 由 代号 x0—x15 表示 。 其 中 通用 整数 寄存 器 x0 被 预 留 为 常数 0， 其 他 15 
A GOl-x15) 为 普通 的 通用 整数 寄存 器 。 
能 入 式 架 构 只 能 是 32 位 架构 (由 RV32E 表 
示 )， 因 此 每 个 寄存 器 的 宽度 为 32 位 。 
。 如 果 支 持 单 精度 浮 点 指令 (由 字母 F K wer pec 
示 》 或 大观 精度 浮上 屿 指名 (HEDE 1a ua [mex | Ode 






































< X 8 of Saved register /frame pointe C'allee 
示 )， 则 需要 另外 增加 一 组 独立 的 通用 |xs | 有 Saved regista | Calle 
- UY ia x10.11 | a0-1 Function arguments/returmm values | Caller 
FA 寄存 器 组 ， 包含 32 | 通用 浮 点 寄 x12.17 |a2 7 Function arguments Caller 
T y xa - | x18-27 | 82-11 Saved registers | Salor 
存 器 标号 为 f0— f31 z 有 关 通 用 浮 点 | x28-31 NR 6 | l'emporaries | Caller | 
| £0-7 ft0-7 FP temporaries Caller | 
ME f8-9 fsO | FP saved registers Cnjlee | 
LES D 附录 在 A14.4 TBITÉ EAE HD f10-11 - r | FP dcin. pies values Calle: 
Men f12.17 | fa27 FP arguments | Caller 
ACT 以 详 述 。 f18-27 m 11 | FP mide Callee 
S ` ` FP temporaries 'aller 
在 汇编 语言 中 ， 通 用 寄存 器 组 中 的 每 个 寄 一 —— 
存 器 均 有 别名 ， 如 图 A-1 所 示 。 图 A-1 RISC-V 通用 寄存 器 别名 


A4.2 CSR EFA 


RISC-V HJHP EX TEARS AFA (Control and Status Register; CSR), H 
于 配置 或 记录 一 些 运行 的 状态 。CSR 寄存 器 是 处 理 器 核 内 部 的 寄存 器 ， 使 用 专 有 的 12 位 地 
址 编码 空间 。 请 参见 附录 B fb CSR 寄存 器 的 列表 与 详细 信息 。 


人 PC 


指令 PC (Instruction Program Counter) 是 指令 存放 于 存储 器 中 的 地 址 位 置 。 

在 一 部 分 处 理 器 架构 中 ， 当 前 执行 指令 的 PC 值 可 以 被 反映 在 某 些 通用 寄存 器 或 特殊 寄 
存 器 中 。 但 是 在 RISC-V 架构 中 ， 当 前 执行 指令 的 PC 值 ， 并 没有 被 反映 在 任何 寄存 器 中 。 
程序 者 想 读 取 PC 的 值 ， 只 能 通过 某 些 指令 间接 获得 ， 璧 如 AUIPC 指令 。 请 参见 附录 A142 
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节 了 解 AUIPC 指令 的 详情 。 


A6 ESSE 


RISC-V RHEN T WASHER). 

e 数据 与 指令 寻 址 空间 : RISC-V 架构 使 用 统一 的 地 址 空间 ， 寻 址 空间 大 小 取决 于 通用 
寄存 器 的 宽度 。 辟 如， 对 于 32 位 的 RISC-V 架构 ， 指 令 和 数据 寻 址 空间 为 2 的 32 
次 方 ， 即 4GB 空间 。 

e CSR 寻 址 空间 : CSR 寄存 器 是 处 理 器 核 内 部 的 寄存 器 ， 使 用 其 专 有 的 12 位 地 址 编 
码 空间 。 请 参见 附录 B 了 解 CSR 寄存 器 的 列表 与 地 址 分 配 信息 。 


A7 Bai A E 


由 于 现在 的 主流 应 用 是 小 端 格式 (Little-Endian)， 因 此 RISC-V 架构 仅 支 持 小 端 格式 。 
有 关 小 端 格式 和 大 端 格式 的 定义 和 区 别 ， 本 书 在 此 不 做 袭 述 ， 请 读者 自行 查阅 学 习 。 


A8 ELE 


如 图 A-2 所 示 ，RISC-V 架构 定义 了 3 种 工作 模式 ， 又 称 特 权 模式 〈Privileged Mode). 

。 Machine Mode: 机 器 模式 ， 简 称 M Mode. 

e Supervisor Mode: 监督 模式 ， 简 称 S Mode. 

。 User Mode: 用 户 模式 ， 简 称 U Mode. 

RISC-V 架构 定义 M Mode 为 必 选 模式 ， 另 外 两 
种 为 可 选 模式 。 如 图 A-3 所 示 ， 通 过 不 同 的 模式 组 
合 可 以 实现 不 同 的 系统 。 


| Number of levels | 














00 User/ Application U 

01 Supervisor S 
Reserved 
Machine 





图 A-2 RISC-V 的 3 种 特权 模式 












Intended Usage 







Supported Modes 
M 

M. U 
M, S, U 


A-3 RISC-V 不 同 特 权 模 式 的 组 合 


。 仅 有 机 器 模式 一 种 的 系统 ， 通 常 为 简单 的 圣 入 式 系 统 。 
e 文 持 机 器 模式 与 用 户 模式 的 系统 ， 此 类 系统 可 以 实现 用 户 和 机 器 模式 的 区 分 ， 从 而 





Simple embedded systems 






Secure embedded systems 
Systems running Unix-like operating systems 
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实现 资源 保护 。 
。 支持 机 器 模式 、 监 督 模式 与 用 户 模式 的 系统 ， 此 类 系统 可 以 实现 类 似 Unix 的 操作 系统 。 


MEM o 


由 于 现今 的 处 理 器 设计 技术 突 飞 狐 进 ， 早 已 突破 了 多 核 的 概念 ， 甚 至 在 一 个 处 理 器 核 中 
设计 多 个 硬件 线程 的 技术 也 早已 成 熟 。 璧 如 硬件 超 线程 《Hyper-threading) 技术 ， 便 是 将 一 
个 处 理 器 核 中 实现 多 份 人 硬件 线程 ， 每 套 线 程 有 自己 独立 的 寄存 器 组 等 上 下 文 资源 ， 但 是 大 多 
数 的 运算 资源 均 被 所 有 硬件 线程 复 用 ， 因 此 面积 效率 很 高 。 在 这 样 的 硬件 超 线程 处 理 器 中 ， 
一 个 核 内 便 存 在 着 多 个 硬件 线程 (Hardware Thread). 

基于 上 述 原 因 ， 在 某 些 场景 下 ， 笼 统 地 使 用 “处 理 器 核 ” 概 念 进行 描述 会 有 失 精 确 。 因 
此 在 RISC-V 的 架构 文档 中 严谨 地 定义 了 一 个 Hart( 取 “Hardware Thread” 之 意 ) 的 概念 ， 
表示 一 个 硬件 线程 。 在 本 书 对 于 指令 集 架 构 的 介绍 中 ， 将 会 多 次 使 用 Hart 概念 。 

以 蜂 马 E200 处 理 嚣 核 的 实现 为 例 ， 由 于 蜂鸟 E200 是 单 核 处 理 器 ， 且 没有 实现 任何 硬 
件 超 线程 的 技术 ， 因 此 一 个 蜂鸟 E200 处 理 器 核 即 为 一 个 Hart. 


A10 Ev: 


对 于 硬件 上 电 复 位 〈Reset) 后 的 行为 ，RISC-V 架构 规定 如 下 。 

。 特权 模式 复位 成 为 机 器 模式 。 

e mstatus 寄存 器 中 的 MIE 和 MPRV 域 被 复位 为 0 值 , 请 参见 附录 B2.9 节 了 解 mstatus 
寄存 器 域 的 详细 信息 。 

。 PC 的 复位 值 由 硬件 实现 自 定 义 ，RISC-V 架构 并 未 强制 规定 。 

e 如果 硬 件 实现 需要 区 分 不 同 的 复位 类 型 , 那么 mcause 寄存 器 的 值 被 复位 成 硬件 实现 
目 定义 的 值 ; 如 果 硬 件 实现 不 需要 区 分 不 同 的 复位 类 型 ， 那么 mcause 寄存 器 的 值 应 
该 复位 成 为 0 值 。 

e 除 上 述 寄 存 器 之 外 的 所 有 其 他 寄存 器 ，RISC-V 架构 并 未 强制 规定 其 复位 值 。 





A11 


请 参见 第 13 章 ， 系 统 了 解 中 断 和 异常 的 相关 信息 。 
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A12 BEA 


RISC-V 架构 可 以 支持 几 种 对 存储 器 地 址 的 管理 模式 ， 包 括 对 物理 地 址 和 虚拟 地 址 的 管 
理 方法 ， 使 得 RISC-V 架构 既 能 文 持 简 单 的 能 入 式 系统 C ERER, 也 能 支持 复 
杂 的 操作 系统 (直接 操作 虚拟 地 址 )。 

由 于 此 内 容 超 出 了 本 书 的 介绍 范围 (蜂鸟 E200 没有 实现 MPU 或 者 MMU)， 因 此 在 此 
不 做 过 多 介绍 。 感 兴趣 的 读者 请 参见 RISC-V“ 特 权 架 构 文档 ”原文 。 


A13 Kiiuzt- 


本 节 介 绍 RISC-V 架构 的 存储 器 模型 。 在 RISC-V 的 “指令 集 文档 ”中 并 未 对 存储 器 模 
型 概念 进行 系统 解释 ， 原 因 在 于 “指令 集 文档 ”是 对 RISC-V 架构 的 精确 定义 ， 而 非 计算 机 
体系 结构 的 教学 文章 。 

为 了 便于 读者 理解 ， 本 书 单独 设立 附录 D， 对 存储 器 模型 的 相关 知识 背景 予以 简介 。 同 时 ， 
存储 器 模型 是 计算 机 体系 结构 中 一 个 非常 星 梁 的 概念 ， 本 书 虽然 力求 行文 通俗 ， 但 是 对 于 此 概 
念 的 转述 仍 相 对 其 他 章节 更 为 难以 理解 。 对 于 初学 者 而 言 ， 作 者 建议 将 此 节 放 到 最 后 来 学 习 。 

阅读 了 附录 D 的 读者 ， 应 该 已 经 了 解 松 散 一 致 性 模型 (Relaxed Consistency Model) 的 
概念 以 及 RISC-V 架构 中 定义 的 Hart 概念 。RISC-V 架构 明确 规定 在 不 同 Hart 之 间 使 用 松散 
一 致 性 模型 ， 并 相应 地 定义 了 存储 器 屏障 指令 (FENCE 和 FENCE.I) 用 于 屏障 存储 器 访问 
的 顺序 。 另 外 ，RISC-V 架构 定义 了 可 选 的 〈 非 必需 的 ) 存储 器 原子 操作 指令 CA 扩展 指令 
子 集 )， 可 进一步 支持 松散 一 致 性 模型 。 


四 


A14.1 RV321MAFDC 指令 列表 


附录 仅 对 RV32IMAFDC 架构 所 涉及 的 指令 子 集 进 行 介绍 。.RV32IMAFDC 的 完整 指令 列 
表 及 其 编码 请 参见 附录 下 。 
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A14.2 


1i 


基本 整数 指令 (RV321) 


整数 有 符号 数 


注意 : RISC-V 架构 中 规定 的 所 有 整数 有 符号 数 均 由 二 进 制 补 码 表示 。 

2. 整数 运算 指令 

ADDI, SLTI, SLTIU, ANDI, ORI, XORI, SLLI, SRLI, SRAI 指令 
(1) 指令 汇编 格式 


addi rd, rsl, imm[11:0] 
slti rd, rsi, imm[11:0] 


sltiu rd, rsi, imm[11:0] 
andi rd, rsl, imm[11:0] 
ori rd, rsl, imm[11:0] 
xori rd, rsl, imm[11:0] 
slli rd, rsl, shamt[4:0] 
srli rd, rsl, shamt[4:0] 
srai rd, rsl, shamt[4:0] 


(2) 指令 详解 
该 组 指令 将 寄存 器 与 立即 数 进行 基本 的 整数 运算 操作 。 


addi 指令 将 操作 数 寄 存 器 rsl 中 的 整数 值 与 12 位 立即 数 〈 进 行 符 号 位 扩展 ) 进行 加 
法 操作 ， 结 果 写 回 寄 存 器 rd 中 。 如 果 发 生 了 结果 溢出 ， 无 须 特殊 处 理 ， 将 滋 出 位 舍 
ji. DUREIK 32 位 结果 。 

使 用 “ADDIrd,rs1, 0” 等 效 于 伪 指 令 “MV rd,rs1” 使 用 “ADDI x0, x0, 0” 等 效 于 
伪 指 令 “NOP”， 请 参见 附录 G 了 解 更 多 伪 指 令 信 息 。 

slti 指令 将 操作 数 寄存 器 rsl 中 的 整数 值 与 12 位 立即 数 〈 进 行 符号 位 扩展 ) 当 作 有 
符号 数 进行 比较 。 如 果 rsl 中 的 值 小 于 立即 数 的 值 ， 则 结果 为 1， 否则 为 0， 结 果 写 
回 寄存 器 rd 中 。 

sltiu 指令 将 操作 数 寄存 器 rsl 中 的 整数 值 与 12 位 立即 数 〈 仍 然 进 行 符号 位 扩展 ) 当 
作 无 符号 数 进行 比较 。 如 果 rsl 中 的 值 小 于 立即 数 的 值 ， 则 结果 为 1， 否则 为 0， 结 
果 写 回 寄存 器 rd 中 。 

使 用 “SLTIU rd, rs1, 1” 等 效 于 伪 指 令 “SEQZ rd, rs1”， 请 参见 附录 G 了 解 更 多 伪 指 
令 信 息 。 

注意 : 此 指令 的 比较 操作 虽然 是 将 操作 数 当 作 无 符号 数 进行 比较 ， 但 是 立即 数 仍然 
是 进行 符号 位 扩展 。 

andi 指令 将 操作 数 寄存 器 rsl 中 的 整数 值 与 12 位 立即 数 〈 进 行 符号 位 扩展 ) 进行 与 
CANDO 操作 ， 结 果 写 回 寄存 器 rd 中 。 

ori 指令 将 操作 数 寄存 器 rsl 中 的 整数 值 与 12 位 立即 数 〈 进 行 符 号 位 扩展 ) 进行 或 
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CORO 操作 ， 结 果 写 回 寄存 器 rd 中 。 

e xori 指令 将 操作 数 寄存 器 rsl 中 的 整数 值 与 12 位 立即 数 《〈 进 行 符号 位 扩展 ) 进行 异 
或 CXORO 操作 ， 结 果 写 回 寄 存 器 rd 中 。 
使 用 “XORIrd, rs1, -1” 等 效 于 伪 指 令 “NOT rd,rs1”， 请 参见 附录 G 了 解 更 多 伪 指 令 信息 。 

e slli 指令 对 操作 数 寄存 器 rsl 中 的 整数 值 进行 逻辑 左 移 运算 〈 低 位 补 入 0)， 移 位 量 为 
5 位 立即 数 ， 结 果 写 回 寄存 器 rd 中 。 

。 srli 指令 对 操作 数 寄存 器 rsl 中 的 整数 值 进行 逻辑 右 移 运算 (高 位 补 入 0), 移 位 量 为 
5 位 立即 数 ， 结 果 写 回 寄 存 器 rd 中 。 

e srai 指令 对 操作 数 寄存 器 rsl 中 的 整数 值 进 行 算术 右 移 运算 (高 位 补 入 符 写 位 )， 移 
位 量 为 5 位 立即 数 ， 结 果 写 回 寄存 器 rd 中 。 | 

LUI, AUIPC 指令 

(OD 指令 汇编 格式 


lui rd, imm 
auipc rd, imm 
(2) 指令 详解 


e lui 指令 将 20 位 立即 数 的 值 左 移 12 位 〈 低 12 位 补 0) 成 为 一 个 32 位 数 ， 将 此 数 写 
回 寄存 器 rd 中 。 

。 auipc 指令 将 20 位 立即 数 的 值 左 移 12 A R 12 位 补 0) 成 为 一 个 32 位 数 ， 将 此 数 
与 该 指令 的 PC 值 相 加 ， 将 加 法 结果 写 回 寄存 器 rd 中 。 

ADD, SUB, SLT, SLTU, AND, OR, XOR, SLL, SRL, SRA 指令 

CD 指令 汇编 格式 


add rd, rsi, zs2 
sub rd, rsi- rs2 
slt rd, rsl, rs2 
sltu fd, rsl, zs2 


and rd, rsl, rs2 
or rd, rsl, rs2 
xor rd, x852.: 2:82 
sll rd, $al, rs2 
srl rd, rsl, rs2 
sra rd, rsl, rs2 
(20 指令 详解 


该 组 指令 将 寄存 器 与 寄存 器 进行 基本 的 整数 运算 操作 。 

e add 指令 将 操作 数 寄存 器 rsl 中 的 整数 值 与 寄存 器 rs2 中 的 整数 值 进行 加 法 操作 ， 络 
果 写 回 寄存 器 rd 中 。 如 果 发 生 了 结果 溢出 ， 无 须 特殊 处 理 ， 将 滋 出 位 舍弃 ， 仅 保留 
低 32 位 结果 。 

e sub 指令 将 操作 数 寄存 器 rsl 中 的 整数 值 与 寄存 器 rs2 中 的 整数 值 进行 减法 操作 ， 结 
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果 写 回 寄存 器 rd 中 。 如 果 发 生 了 结果 溢出 ， 无 须 特殊 处 理 ， 将 洪 出 位 舍弃 ， 仅 保留 
低 32 位 结果 。 

slt 指令 将 操作 数 寄存 器 rsl 中 的 整数 值 与 寄存 器 rs2 中 的 整数 值 当 作 有 符号 数 进行 比 
较 。 如 果 rsl 中 的 值 小 于 rs2 中 的 值 ， 则 结果 为 1， 否则 为 0, 结果 写 回 寄存 器 rd 中 。 
situ 指令 将 操作 数 寄 存 器 rsl 中 的 整数 值 与 寄存 器 rs2 中 的 整数 值 当 作 无 符号 数 进行 比 
较 。 如 果 rsl 中 的 值 小 于 rs2 中 的 值 ， 则 结果 为 1， 否则 为 0， 结 果 写 回 寄 存 右 rd 中 。 
and 指令 将 操作 数 寄存 器 rsl 中 的 整数 值 与 寄存 器 rs2 中 的 整数 值 进行 与 (AND) $E 
作 ， 结 果 写 回 寄存 器 rd 中 。 

or 指令 将 操作 数 寄存 器 rsl 中 的 整数 值 与 寄存 器 rs2 中 的 整数 值 进 行 或 CORO. 操作 ， 
结果 写 回 寄存 器 rd 中 。 

xor 指令 将 操作 数 寄存 器 rsl 中 的 整数 值 与 寄存 器 rs2 中 的 整数 值 进行 异 或 CXORO 
操作 ， 结 果 写 回 寄存 器 rd 中 。 

sll 指令 对 操作 数 寄存 器 rsl 中 的 整数 值 进行 逻辑 左 移 运算 〈 低 位 补 入 0)， 移 位 量 为 
寄存 器 rs2 中 整数 值 的 低 5 位， 结果 写 回 寄存 器 rd 中 。 

srl 指令 对 操作 数 寄存 器 rsl 中 的 整数 值 进行 逻辑 右 移 运算 (高 位 补 入 0)， 移 位 量 为 
寄存 器 rs2 中 整数 值 的 低 $ 位 ， 结 果 写 回 寄存 器 rd 中 。 

sra 指令 对 操作 数 寄存 器 rsl 中 的 整数 值 进行 算术 右 移 运算 (高 位 补 入 符号 位 ), 移 位 
量 为 寄存 器 rs2 中 整数 值 的 低 5 位 ， 结 果 写 回 寄存 器 rd 中 。 


3. 分 支 跳 转 指 令 

请 先 参 见 第 7.1.4 节 了 解 更 多 分 文 跳 转 指令 的 知识 背景 和 使 用 信息 。 
JAL，JALR 指令 

(1) 指令 汇编 格式 


jal rd, label 
jalr rd, rsl, imm 


(2) 指令 详解 
该 组 指令 为 无 条 件 跳 转 指 令 ， 即 一 定 会 发 生 跳 转 : 
。 jal 指令 使 用 20 位 立即 数 (有 符号 数 ) 作为 偏 移 量 (offset)。 该 偏 移 量 乘 以 2， 然 后 与 该 


指令 的 PC 相 加 ， 生 成 得 到 最 终 的 跳 转 目标 地 址 ， 因 此 仅 可 以 跳 转 到 前 后 1MB 的 地 址 区 
间 。jal 指令 将 其 下 一 条 指令 的 PC 〈 即 当前 指令 PCH) 的 值 写 入 其 结果 寄存 器 rd 中 。 
注意 : 在 实际 的 汇编 程序 编写 中 ， 跳 转 的 目标 往往 使 用 汇编 程序 中 的 label， 汇 编 器 
会 自动 根据 label 所 在 的 地 址 计算 出 相对 的 偏 移 量 赋予 指令 编码 。 


。 jalr 指令 使 用 12 位 立即 数 〈《 有 符号 数 ) 作为 偏 移 量 ， 与 操作 数 寄存 器 rsl 中 的 值 相 


加 得 到 最 终 的 跳 转 目标 地 址 。jalr 指令 将 其 下 一 条 指令 的 PC〈 即 当前 指令 PC+4) 的 
值 写 入 其 结果 寄存 器 rd. 
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BEQ，BNE，BLT，BLTU，BGE，BGEU 指令 
(1) 指令 汇编 格式 





beq rsl, rs2, label 
bne rsl, rs2, label 
blt rsl, rs2, label 
bltu rsl, rs2, label 
bge rsl, rs2, label 
bgeu rsl, rs2, label 
(2) 指令 详解 


该 组 指令 为 有 条 件 跳 转 指令 ， 使 用 12 位 立即 数 (有 符号 数 ) 作为 偏 移 量 。 该 偏 移 量 乘 
以 2, 然后 与 该 指令 的 PC 相 加 , 生成 得 到 最 终 的 跳 转 目标 地 址 , 因此 仅 可 以 跳 转 到 前 后 4KB 
的 地 址 区 间 。 有 条 件 跳 转 指令 需要 在 条 件 为 真 时 才 会 发 生 跳 转 ， 具 体 如 下 。 
e beg 指令 只 有 在 操作 数 寄存 器 rsl 中 的 数值 与 操作 数 寄存 器 rs2 中 的 数值 相等 时 ， 才 
会 跳 转 。 
。 bne 指令 只 有 在 操作 数 寄存 器 rsl 中 的 数值 与 操作 数 寄存 器 rs2 中 的 数值 不 相等 时 ， 
才 会 跳 转 。 
。 bt 指令 只 有 在 操作 数 寄存 器 rsl 中 的 有 符号 数 小 于 操作 数 寄存 器 rs2 中 的 有 符号 数 
时 ， 才 会 跳 转 。 
。 btu 指令 只 有 在 操作 数 寄存 器 rsl 中 的 无 符号 数 小 于 操作 数 寄存 器 rs2 中 的 无 符号 数 
时 ， 才 会 跳 转 。 
。 bge 指令 只 有 在 操作 数 寄存 器 rsl 中 的 有 符号 数 大 于 或 等 于 操作 数 寄存 器 rs2 中 的 有 
符号 数 时 ， 才 会 跳 转 。 
。 bgeu 指令 只 有 在 操作 数 寄 存 器 rsl 中 的 无 符号 数 大 于 或 等 于 操作 数 寄存 器 rs2 中 的 无 
符号 数 时 ， 才 会 跳 转 。 
注意 : 在 实际 的 汇编 程序 编写 中 ， 跳 转 的 目标 往往 使 用 汇编 程序 中 的 label， 汇 编 器 会 
自动 根据 label 所 在 的 地 址 计算 出 相对 的 偏 移 量 赋予 指令 编码 。 
4. 整数 Load/Store 指令 
LW, LH. LHU. LB, LBU, SW, SH, SB 指令 
CD 指令 汇编 格式 


lw rd, offset[11:0] (rs1) 
lh rd, offset[11:0] (rsi) 
lhu rd, offset[11:0] (rs1l) 
lb rd, offset[11:0] (rs1) 
lbu rd, offset[11:0] (rs1) 
Sw rs2, offset[11:0](rs1) 
sh rs2, offset[11:0] (rs1) 
sb rs2, offset[11:0](rs1) 
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(2) 指令 详解 

该 组 指令 进行 存储 器 读 或 者 写 操 作 ， 访 问 存储 器 的 地 址 均 由 操作 数 寄存 器 rsl 中 的 值 与 
12 位 的 立即 数 〈 进 行 符号 位 扩展 ) 相 加 所 得 。 

e lw 指令 从 存储 器 中 读 回 一 个 32 位 的 数据 ， 写 回 寄存 天 rd 中 。 

e lh 指令 从 存储 器 中 读 回 一 个 16 位 的 数据 ， 进 行 符号 位 扩展 后 写 回 寄存 器 rd 中 。 

e lhu 指令 从 存储 器 中 读 回 一 个 16 位 的 数据 ， 进 行 高 位 补 0 扩展 后 写 回 寄 存 器 rd 中 。 

e lb 指令 从 存储 器 中 读 回 一 个 8 位 的 数据 ， 进 行 符号 位 扩展 后 写 回 寄存 器 rd: 中 。 

e lbu 指令 从 存储 器 中 读 回 一 个 8 位 的 数据 ， 进 行 高 位 补 0 扩 展 后 写 回 寄存 器 rd 中 。 

e sw 指令 将 操作 数 寄存 器 rs2 中 的 32 位 数据 ， 写 回 存储 器 中 。 

e sh 指令 将 操作 数 寄存 器 rs2 中 的 低 16 位 数据 ， 写 回 存储 器 中 。 

e sb 指令 将 操作 数 寄存 器 rs2 中 的 低 8 位 数据 ， 写 回 存储 句 中 。 

对 于 整数 Load 和 Store 指令 ，RISC-V 架构 推荐 使 用 地 址 对 齐 的 存储 器 读 写 操作 。 但 是 
地 址 非 对 齐 的 存储 器 操作 RISC-V 架构 也 支持 ， 处 理 器 可 以 选择 用 硬件 来 支持 ， 也 可 以 选择 
用 软件 异常 服务 程序 来 支持 。 蜂 鸟 E200 处 理 器 核 选择 采用 软件 异常 服务 程序 来 支持 〈 即 地 
址 非 对 齐 的 Load 或 Store 指令 会 产生 异常 )， 参 见 第 13 章 了 解 更 多 异常 的 相关 信息 。 

注意 : RISC-V 架构 仅 支 持 小 端 CLittle-Endian). 格式 。 

对 于 地 址 对 齐 的 存储 器 读 写 操作 , RISC-V 架构 规定 其 存储 器 读 写 操 作 必 须 具备 原子 性 。 
有 关 存 储 器 原子 操作 的 背景 知识 请 参见 附录 A14.5 节 对 于 RV32A 指令 子 集 的 介绍 。 

5. CSR 指令 

如 附录 A4.2 节 所 述 , RISC-V 的 架构 中 定义 了 一 些 控制 和 状态 寄存 器 (Control and Status 
Register，CSR)， 用 于 配置 或 记录 一 些 运行 的 状态 。CSR 寄存 器 是 处 理 器 核 内 部 的 寄存 器 ， 
使 用 其 专 有 的 12 位 地 址 编码 空间 。 请 参见 附录 B 了 解 CSR 寄存 器 的 列表 与 详细 信息 。 

CSR 寄存 器 的 访问 采用 专用 的 CSR 指令 ， 包 插 CSRRW、CSRRS、CSRRC、CSRRWI、 
CSRRSI 以 及 CSRRCI 指令 。 

CSRRW, CSRRS, CSRRC, CSRRWI, CSRRSI, CSRRCI 指令 


(1) 指令 汇编 格式 

CSIIW ra GST, XE 

csrrs rd, csr, rsi 

csrrc rd, csr, rsi 
csrrwi rd, csr, imm[4:0] 
csrrsi rd, csr, imm[4:0] 
csrrci rd, csr, imm[4:0] 
(2) 指令 详解 

该 组 指令 用 于 读 写 CSR 寄存 器 。 


。 csrrw 指令 完成 两 项 操作 : 
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将 csr 索引 的 CSR 寄存 器 值 读 出 ， 写 回 结果 寄存 器 rd 中 。 
将 操作 数 寄存 器 rsl 中 的 值 写 入 csr 索引 的 CSR 寄存 器 中 。 

e csrrs 指令 完成 两 项 操作 : 
将 esr 索引 的 CSR 寄存 器 值 读 出 ， 写 回 结 果 寄 存 器 rd 中 。 
以 操作 数 寄存 器 rsl 中 的 值 逐 位 作为 参考 ， 如 果 rsl 中 的 值 某 个 比特 位 为 1， 则 将 csr 
索引 的 CSR 寄存 器 中 对 应 的 比特 位 置 为 1， 其 他 位 则 不 受 影 响 。 

e csrrc 指令 完成 两 项 操作 : 
将 esr 索引 的 CSR 寄存 器 的 值 读 出 ， 写 回 结果 寄存 器 rd 中 。 
以 操作 数 寄存 器 rsl 中 的 值 逐 位 作为 参考 , 如 果 rsl 中 的 值 某 个 比特 位 为 1， 则 将 csr 
索引 的 CSR 寄存 器 中 对 应 的 比特 位 清 为 0， 其 他 位 则 不 受 影响 。 

e csrrwi 指令 完成 两 项 操作 : 
将 esr 索引 的 CSR 寄存 器 的 值 读 出 ， 写 回 结果 寄存 器 rd 中 。 
将 5 位 立即 数 《〈 高 位 补 0 扩展 ) 的 值 写 入 esr 索引 的 CSR 寄存 器 中 。 

。 csrrsi 指令 完成 两 项 操作 : 
将 csr 索引 的 CSR 寄存 器 的 值 读 出 ， 写 回 结 果 寄 存 器 rd Po 
以 5 位 立即 数 (高 位 补 0 扩展 ) 的 值 逐 位 作为 参考 , 如 果 rsl 中 的 值 某 个 比特 位 为 1， 
将 csr 索 引 的 CSR 寄存 器 中 对 应 的 比特 位 置 为 1， 其 他 位 则 不 受 影 响 。 

e csrrci 指令 完成 两 项 操作 : 
将 csr 索引 的 CSR 寄存 器 的 值 读 出 ， 写 回 结果 寄存 器 rd 中 。 
以 5 位 立即 数 (高 位 补 0 扩展 ) 的 值 逐 位 作为 参考 , 如 果 rsl 中 的 值 某 个 比特 位 为 1， 
将 csr 索引 的 CSR 寄存 器 中 对 应 的 比特 位 清 为 0， 其 他 位 则 不 受 影 啊 。 

注意 : 

e 对 于 CSRRW 和 CSRRWI 指令 而 言 ， 如 果 结 果 寄 存 器 rd 的 索引 值 为 0， 则 不 会 发 起 
CSR 寄存 器 的 读 操作 ， 也 不 会 带 来 任何 读 操 作 造 成 的 副作用 。 

e 对 于 CSRRS 和 CSRRC 指令 而 言 ， 如 果 rsl 的 索引 值 为 0， 则 不 会 发 起 CSR 寄存 器 
的 写 操作 ， 也 不 会 带 来 任何 写 操作 造成 的 副作用 。 

。 对 于 CSRRSI 和 CSRRCI 指令 而 言 ， 如 果 立 即 数 的 值 为 0， 则 不 会 发 起 CSR 寄存 器 
的 写 操作 ， 也 不 会 带 来 任何 写 操作 造成 的 副作用 。 

使 用 上 述 指令 的 不 同形 式 可 以 等 效 出 CSRR、CSRW、CSRS 以 及 CSRC 等 伪 指 令 ， 如 

请 参见 附录 G 了 解 更 多 伪 指 令 信息 。 
6. 存储 器 屏障 (FENCE) 指令 
在 附录 A13 中 已 介绍 ，RISC-V 架构 在 不 同 Hart 之 间 使 用 的 是 松散 一 致 性 模型 ， 也 介绍 
了 松散 一 致 性 模型 需要 使 用 存储 器 屏障 Memory Fence) 指令 ， 因 此 RISC-V 也 相应 地 定义 
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了 其 存储 器 屏障 指令 ， 主 要 包括 FENCE 和 FENCE.I 指令 ， 此 二 种 指令 都 是 RISC-V 架构 必 
选 的 基本 指令 。 

FENCE 指令 

(1) 指令 汇编 格式 
| fence 

(2) 指令 详解 

fence 指令 用 于 屏障 “数据 ”存储 器 访问 的 执行 顺序 ， 在 程序 中 如 果 添 加 了 一 条 fence 
指令 ， 则 该 fence 指令 能 够 保证 “在 fence 之 前 所 有 指令 进行 的 数据 访 存 结果 ”必须 比 “ 在 
fence 之 后 所 有 指令 进行 的 数据 访 存 结果 ” 先 被 观测 到 。 通 俗 地 讲 ，fence 指令 就 像 一 堵 屏 障 
一 样 ， 在 fence 指令 之 前 的 所 有 数据 存储 器 访问 指令 ， 必 须 比 该 fence 指令 之 后 的 所 有 数据 
存储 器 访问 指令 先 执行 

为 了 能 够 更 加 细致 地 屏障 不 同 地 址 区 间 的 存储 器 访问 指令 ，RISC-V 架构 将 数据 存储 器 
的 地 址 空间 分 为 设备 VO (Device LOO 和 普通 存储 器 (Memory)〉 空间 ， 因 此 对 其 读 写 访问 
可 以 分 为 4 种 类 型 。 

e I: 设备 读 (Device-Input) 

。 O: 设备 写 (Device-Output) 

e。 R: 存储 器 读 (Memory-Reads) 

o W: 存储 器 写 (Memory-Writes) 

如 图 A-4 所 示 ，fence 指令 的 编码 中 包含 了 PI/PO/PR/PW 编码 位 ， 分 别 表示 fence 指令 之 前 
(predecessor) 的 四 种 读 写 访问 类 型 ， 还 包含 了 SUSO/SR/SW 编码 位 ， 分 别 表示 fence 指令 之 后 
(successor) 的 四 种 读 写 访问 类 型 。 通 过 设置 不 同 的 编码 位 ， 就 可 以 更 加 细致 地 屏障 不 同 数据 存 
储 器 访问 操作 。 璧 如 ， 在 程序 中 如 果 添 加 了 一 条 “fence io, iorw” 指 令 ， 则 该 FENCE 指令 能 够 
保证 “在 fence 之 前 所 有 指令 进行 的 设备 读 (Device-Input) 和 设备 写 (Device-Output) 操作 结 
果 ” 必 须 比 “在 fence 之 后 所 有 指令 进行 的 设备 读 (Device-Input)、 设 备 写 (Device-Output?. 
存储 器 读 CMemory-Reads) 以 及 存储 器 写 (Memory-Writes ) 结果 ” 先 被 观测 到 。 通俗 地 讲 ，fence 
指令 就 像 一 堵 屏 障 一 样 ， 在 fence 指令 之 前 的 〈Device-Input) 和 设备 写 (Device-Output) 操作 
指令 ， 必 须 比 该 fence 指令 之 后 的 设备 读 (Device-Input)、 设 备 写 (Device-Output)、 存 储 器 读 
(Memory-Reads) 以 及 存储 器 写 (Memory-Writes) 操作 指令 先 执行 。 


31 28 27 26 25 LA 23 2 A 20 19 15 14 12 11 76 





L8 [PI[PO[PR[PW[SI[SO[SR[SW] wi [ft3l si | opcode 


4 1 1 ] 1 1 1 T 1 5 3 5 
0 predecessor Successor 0 FENCE 0 MISC- ga 


图 A-4 Fence 指令 的 指令 编码 
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注意 :不 带 参数 的 fence 指令 默认 等 效 于 “fence iorw, iorw”。 虽 然 fence 指令 可 以 通过 IORW 
参数 细致 地 屏障 不 同 地 址 类 型 的 存储 器 访问 指令 ， 但 是 协议 也 允许 处 理 器 的 简单 硬件 实现 ， 
譬如 对 于 简单 的 低 功 耗 处 理 器 而 言 ， 不 管 fence 指令 中 编码 的 PUPO/PR/PW/SI/SO/SR/RW 的 值 
如 何 ， 一 概 的 屏障 所 有 地 址 类 型 的 存储 器 访问 指令 〈 都 等 效 于 FENCE IORW, IORWO, W% 
E200 处 理 器 核 便 是 采取 这 种 简单 的 硬件 实现 。 

FENCE.I 指令 

(1) 指令 汇编 格式 

fence.i 

(2) 指令 详解 

fence.i 指令 用 于 同步 指令 和 数据 流 。 

为 了 能 够 解释 清楚 fence.i 指令 的 功能 。 在 此 有 必要 先 引出 一 个 问题 : 假设 在 程序 中 一 
条 “ 写 存 储 器 指令 ”向 某 段 地 址 区 间 中 写 入 了 新 的 值 ， 同 时 ， 假 设 “ 后 序 的 指令 ”也 需要 从 
该 地 址 区 间 进 行 取 指令 ， 那 么 该 取 指 操作 能 否 取 到 它 前 面 “ 写 存储 器 指令 ” 写 入 的 新 值 呢 ? 
答案 是 “不 一 定 ”。 因 为 结合 第 5 章 对 于 流水 线 的 介绍 便 可 以 知道 ， 处 理 器 的 流水 线 具有 一 
ERRE, 指令 与 指令 采取 的 是 流水 线 的 方式 工作 , 当 “ 写 存储 器 指令 ”完成 了 写 操作 之 时 ， 
后 续 的 指令 可 能 早已 完成 了 取 指 令 操 作 进 入 了 流水 线 的 执行 阶段 ， 因 此 “后 序 的 指令 ” 取 指 
取 到 的 其 实 是 它 前 面 “ 写 存储 器 指令 ” 写 入 新 值 之 前 的 旧 值 。 

为 了 解决 该 问题 ，fence.i 指令 被 引入 。 如 果 在 程序 中 如 果 添 加 了 一 条 fence.i 指令 ， 则 该 
fence.i 指令 能 够 保证 “在 fence.i 之 前 所 有 指令 进行 的 数据 访 存 结果 ”一 定 能 够 被 “在 fence.i 
之 后 所 有 指令 进行 的 取 指 令 操 作 ” 访 问 到 。 通 常 说 来 ， 在 处 理 器 的 微 架 构 硬 件 实现 时 ,一旦 
遇 到 一 条 fencei 指令 便 会 先 等 待 之 前 的 所 有 的 数据 访 存 指令 执行 完 ， 然 后 将 流水 线 冲刷 掉 
(包括 I-Cache)， 使 其 后 续 的 所 有 指令 能 够 重新 进行 取 指 ， 从 而 取 到 最 新 的 值 。 

注意 : fence.i 指令 只 能 够 保证 同一 个 Hart 执行 的 指令 和 数据 流 顺 序 ， 而 无 法 保证 多 个 
Hart 之 间 的 指令 和 数据 流 顺 序 。 假 设 一 个 Hart 希望 其 执行 的 数据 访 存 结果 能 够 被 所 有 Hart 
(包括 其 自己 和 其 他 Hart) 的 指令 取 指 操作 所 访问 到 ， 那 么 理论 上 它 应 该 采取 如 下 措施 。 

。 第 1 步 : 本 Hart 完 成 “数据 访 存 操作 ”。 

e 第 2 步 : 本 Hart 执行 一 条 fence 指令 ， 保 证 其 前 序 的 所 有 数据 访 存 操作 一 定 能 够 比 

后 序 的 操作 被 所 有 的 Hart 先 观 测 到 。 

。 第 3 步 : 本 Hart 请求 所 有 的 Hart. (包括 其 自己 ) 执行 一 条 fence.i 指令 。 

e 注意 : 本 Hart“ 对 其 他 的 Hart 发 起 的 请 求 操 作 ” 和 之 前 进行 的 “数据 访 存 操作 ” 必 
须 能 够 被 fence 指令 屏障 开 ， 也 就 意味 着 ， 当 所 有 其 他 Hart 接收 到 请 求 之 后 ， 一 定 
能 够 观测 到 之 前 “数据 访 存 操作 ”的 结果 ， 然 后 再 执行 了 fence.i 指令 之 后 的 指令 取 
指 操作 便 能 够 取 到 最 新 的 数值 。 
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7. 特殊 指令 ECALL、EBREAK、MRET、WFI 
ECALL 指令 
(1) 指令 汇编 格式 


| ecall 


(2) 指令 详解 

ecall 指令 用 于 生成 环境 调用 (Environment-Call) 异常 。 当 产生 异常 时 ，mepc 寄存 器 将 
会 被 更 新 为 ecall 指令 本 身 的 PC 值 。 请 参见 第 13 章 了 解 更 多 中 断 与 和 异常 信息 。 

EBREAK 指令 

(1) 指令 汇编 格式 


ebreak 


(2) 指令 详解 

ebreak 指令 用 于 生成 断 点 〈Breakpoint) 异常 。 当 产生 异常 时 ，mepc 寄存 器 将 会 被 更 新 
为 ebreak 指令 本 里 的 PC 值 。 请 参见 第 13 章 了 解 更 多 中 断 与 和 异常 信息 。 

MRET 指令 

(1) 指令 汇编 格式 


mret 


(2) 指令 详解 
RISC-V 架构 定义 了 一 组 专门 用 于 退出 异常 的 指令 ， 称 之 为 异 稼 返回 指令 〈Trap-Return 
Instructions), £j mret, sret 和 uret, HEP mret 指令 是 必 备 的 ， 而 sret 和 uret 指令 仅 在 支持 
监督 模式 和 用 户 模式 的 处 理 器 中 使 用 。 使 用 mret 指令 退出 异常 的 机 制 如 下 。 
。 处 理 器 在 执行 了 mret 指令 退出 异常 时 ， 即 跳 转 到 mepe 寄存 器 的 值 指定 的 PC 地 址 。 
由 于 在 之 前 进入 异常 时 ，mepc 寄存 器 被 同时 更 新 以 反映 当时 遇 到 异常 的 指令 的 PC 
值 ， 因 此 通过 这 个 机 制 则 意味 着 mret 指令 执行 后 处 理 器 回 到 了 当时 遇 到 异常 的 指令 
的 PC 地 址 ， 从 而 可 以 继续 执行 之 前 被 中 止 的 程序 流 。 
。 处 理 器 在 执行 了 mret 指令 退出 异常 时 ，mstatus 寄存 器 的 有 些 域 被 同时 更 新 。 
MIE 的 值 被 更 新 为 MPIE 的 值 ，MPIE 的 值 则 被 更 新 为 1。 
假设 只 文 持 机 器 模式 ，MPP 的 值 永远 为 11。 
由 于 在 进入 异常 时 ，MPIE 的 值 曾经 被 更 新 为 MIE 的 值 (MIE 的 值 则 更 新 为 0 以 全 
局 关闭 中 断 )， 因 此 通过 这 个 机 制 则 意味 着 mret 指令 执行 后 处 理 器 的 MIE 值 被 更 新 
回 了 之 前 的 值 〈 假 设 之 前 的 MIE 值 为 1， 则 意味 着 中 断 被 重新 全 局 打开 )。 
请 参见 第 13 章 了 解 更 多 中 断 与 和 异常 信息 。 


WFI 指令 


CD 指令 汇编 格式 


wfi 


(2) 指令 详解 
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WFI 指令 ， 全 称 为 等 待 中断 (Wait For Interrupt), Æ RISC-V 架构 定义 的 专门 用 于 休眠 


的 指令 。 


RISC-V 架构 也 允许 具体 的 硬件 实现 中 将 WFI 指令 当成 一 种 NOP 操作 ， 即 什么 也 不 做 。 
如 果 硬 件 实现 选择 支持 休眠 模式 ， 则 按照 RISC-V 架构 规定 其 行为 如 下 。 
e 当 处 理 器 执行 到 WF 指令 之 后 ， 将 会 停止 执行 当前 的 指令 流 ， 进 入 一 种 空间 状态 ， 


这 种 空闲 状态 可 以 被 称 之 为 “休眠 ”状态 。 


e 直到 处 理 器 接收 到 中 断 〈 中 断 局 部 开关 必须 被 打开 ， 由 mie 寄存 器 控制 )， 处 理 器 便 
被 唤醒 。 处 理 器 被 唤醒 后 ， 如 果 中 断 被 全 局 打开 Cmstatus 寄存 器 的 MIE 域 控制 )， 
则 进入 到 中 断 异 常服 务 程序 开始 执行 ， 如 果 中 断 被 全 局 关闭 ， 则 继续 顺序 执行 之 前 


停止 的 指令 流 。 
A14.3 ”整数 乘法 和 除法 指令 (RV32M 指令 子 集 ) 


RISC-V 架构 定义 了 可 选 的 整数 乘法 和 除法 指令 (OM 扩展 指令 子 集 )。 本 书 仅 介绍 32 位 


架构 的 乘除 法 指令 〈RV32M )。 
1. 整数 乘法 指令 
MUL，MULH，MULHU，MULHSU 指令 
(1) 指令 汇编 格式 


mul rd, ERL; 
mulh rd, zrsl, 
mulhu rd, rel, 
mulhsu rd, rsl, 





(2) 指令 详解 


该 组 指令 进行 整数 的 乘法 操作 。 


rs2 
rs2 
rs2 
rs2 


。 mul 指令 将 操作 数 寄存 器 rsl 与 rs2 中 的 32 位 整数 相 乘 ， 将 结果 的 低 32 位 写 回 寄存 


器 rd 中 。 


e 由 于 两 个 32 位 整数 操作 数 相 乘 的 结果 等 于 64 位 ， 且 对 于 两 个 32 位 整数 相 乘 而 言 ， 
将 两 个 操作 数 当 作 有 符号 数 相 乘 所 得 的 低 32 位 和 当 作 无 符号 数 相 乘 所 得 的 低 32 位 
肯定 是 相同 的 (具体 算法 读者 可 以 目 行 推导 )， 因 此 RISC-V 架构 仅 定义 了 一 条 mul 


指令 作为 取 低 32 位 结果 的 乘法 指令 。 


。 mulh 指令 将 操作 数 寄存 器 rsl 与 rs2 中 的 32 位 整数 相 乘 ， 其 中 rsl 和 rs2 中 的 值 都 


358 | RISC-V 架构 指令 集 介绍 


被 当 作 有 符号 数 ， 将 结果 的 高 32 位 写 回 寄存 器 rd 中 。 

e mulhu 指令 将 操作 数 寄存 器 rsl 与 rs2 中 的 32 位 整数 相 乘 ， 其 中 rsl 和 rs2 中 的 值 都 
被 当 作 无 符号 数 ， 将 结果 的 高 32 位 写 回 寄存 器 rd 中 。 

。 mulhsu 指令 将 操作 数 寄存 器 rsl 与 rs2 中 的 32 位 整数 相 乘 , 其 中 rsl 和 rs2 中 的 值 分 
别 被 当 作 有 符号 数 和 无 符号 数 ， 将 结果 的 高 32 位 写 回 寄存 器 rd 中 。 

注意 : 如 果 希 望 得 到 两 个 32 位 整数 相 乘 的 完整 64 位 结果 ，RISC-V 架构 推荐 使 用 两 条 

连续 的 乘法 指令 “MULHI[I[SIU] rdh, rsl, rs2; MUL rdl, rsl,rs2”， 其 要 点 如 下 。 

。 两 条 指令 的 源 操作 数 索 引号 和 顺序 必须 完全 相同 。 

。 第 一 条 指令 的 结果 寄存 器 rdh 的 索引 号 必须 不 能 与 其 rsl 和 rs2 的 索引 号 相等 。 

。 处 理 器 实现 的 微 架 构 可 以 将 两 条 指令 融合 (Fused) 成 为 一 条 指令 执行 ， 而 不 是 分 离 
的 两 条 指令 ， 从 而 提高 性 能 。 

2. 整数 除法 指令 

DIV, DIVU, REM, REMU 指令 

(1) 指令 汇编 格式 


div fd, rsl, rs2 
divu rd, rsl, rs2 
rem rd, rzsl, 152 
remu rd, rsl, rs2 
(2) 指令 详解 


该 组 指令 进行 整数 的 除法 操作 。 

e div 指令 将 操作 数 寄存 器 rsl 与 rs2 中 的 32 位 整数 相 除 ， 其 中 rsl 和 rs2 中 的 值 都 被 
当 作 有 符号 数 ， 将 除法 所 得 的 商 写 回 寄存 器 rd 中 。 

e divu 指令 将 操作 数 寄存 器 rsl 与 rs2 中 的 32 位 整数 相 除 , 其 中 rsl 和 rs2 中 的 值 都 被 
当 作 无 符号 数 ， 将 除法 所 得 的 商 写 回 寄存 右 rd 中 。 

e rem 指令 将 操作 数 寄存 器 rsl 与 rs2 中 的 32 位 整数 相 除 ， 其 中 rsl 和 Ts2 中 的 值 都 被 
当 作 有 符号 数 ， 将 除法 所 得 的 余数 写 回 寄存 器 rd 中 。 

e remu 指令 将 操作 数 寄存 器 rsl 与 rs2 中 的 32 位 整数 相 除 ， 其 中 rsl 和 rs2 中 的 值 都 
被 当 作 无 符号 数 ， 将 除法 所 得 的 余数 写 回 寄存 器 rd 中 。 

注意 : 如 果 希 望 同 时 得 到 两 个 32 位 整数 相 除 的 商 和 余数 ，RISC-V 架构 推荐 使 用 两 条 连 

续 的 除法 和 取 余 指令 “DIV[U] rdq, rsl, rs2; REM[U] rdr, rsl rs2”， 其 要 点 如 下 。 

。 两 条 指令 的 源 操 作 数 索引 号 和 顺序 必须 完全 相同 。 

。 第 一 条 指令 的 结果 寄存 器 rdq 的 案 引 号 必须 不 能 与 其 rsl 和 rs2 的 索引 号 相等 。 

。 处 理 器 实现 的 微 架构 可 以 将 两 条 指令 融合 成 为 一 条 指令 执行 ， 而 不 是 分 离 的 两 条 指 
令 ， 从 而 提高 性 能 。 

在 很 多 的 处 理 器 架构 中 ， 除 法 的 除 以 0 CDivided-by-Zero 都 会 触发 异常 跳 转 〈Trap ) 
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从 而 进入 有 异常 模式 。 但 是 请 注意 : RISC-V 架构 的 除法 指令 在 除 以 0 时 并 不 会 跳 转 进入 异常 
模式 。 这 是 RISC-V 架构 的 一 个 显著 特点 。 该 特点 可 以 大 幅 简 化 处 理 嚣 流水线 的 硬件 实现 。 

虽然 不 会 发 生 开 第， 但 是 仍然 会 产生 特殊 的 数值 结果 。RISC-V 架构 的 除法 指令 在 除 以 
0， 以 及 发 生 结果 上 洲 出 时 产生 的 数值 结果 如 图 A-5 所 示 。 


ee | De [Dwie] DVU [REMU| DIV RENT 





8 A-5 ”DIVU/REMU/DIV/REM 四 条 指令 在 除 以 0 和 上 溢出 时 的 结果 


A14.4 ”浮上 点 指令 (RV32F，RV32D ESFE) 


RISC-V 架构 定义 了 可 选 的 单 精度 浮 点 指令 (F 扩展 指令 子 集 ) 和 双 精 度 浮 点 指令 D 
扩展 指令 子 集 )。 

注意 : RISC-V 架构 规定 ， 处 理 器 可 以 选择 只 实现 F 扩展 指令 子 集 而 不 支持 D 扩展 指令 
子 集 ; 但 是 如 果 文 持 了 DD 扩展 指令 子 集 ， 则 必须 支持 FF 扩展 指 令 子 集 。 

本 书 仅 介绍 32 位 架构 的 浮 点 指令 (RV32F，RV32D)。 

1. 标准 

RISC-V 架构 中 规定 的 所 有 浮 点 运算 均 遵循 标准 IEEE-754 标准 。 具 体 的 标准 版 本 为 
ANSU/IEEE Std 754-2008, IEEE standard for oating-point arithmetic, 2008. 

2. 通用 浮 点 寡 存 器 组 

RISC-V 架构 规定 ， 如 果 支 持 单 精度 浮 点 指令 或 者 双 精 度 浮 点 指令 ， 则 需要 增加 一 组 独 
立 的 通用 浮 点 寄存 器 组 ， 包 含 32 个 通用 浮 点 寄存 器 ， 标 号 为 和 至 31。 

浮 点 寄存 器 的 宽度 由 FLEN 表示 ， 如 果 仅 支持 F 扩展 指令 子 集 ， 则 每 个 通用 浮 后 寄存 器 
的 宽度 为 32 位 ; 如 果 支 持 D 扩展 指令 子 集 ， 则 每 个 通用 浮 点 寄存 器 的 宽度 为 64 位 。 

注意 : RISC-V 架构 规定 , 不 同 于 基本 整数 指令 集中 规定 x0 为 常数 0， 浮 点 寄存 器 组 中 
的 血 为 一 个 正常 的 通用 浮 点 寄存 器 (与 们 ~f31 相同 )。 

3. 浮 点 fcsr 寄存 器 

RISC-V 架构 规定 ， 如 果 支 持 单 精 度 浮 点 指令 或 者 双 精 度 浮 点 指令 ， 则 需要 增加 一 个 浮 
点 控制 状态 寄存 器 (fesr)， 如 图 A-6 所 示 。fesr 是 一 个 可 读 可 写 的 CSR 寄存 器 ， 有 关 此 CSR 
寄存 器 的 地 址 ， 请 参见 附录 B1。 

31 8 7 了 5 4 3 2 1 0 


Hounding Mode (fra) | A&crued Exceptions finga) 
1 l l 1 l 
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A-6 fcsr 寄存 器 格式 
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4. 浮 点 异常 标志 

如 图 A-6 所 示 ，fesr 寄存 器 包含 浮 点 异常 标志 位 域 (fags)， 不 同 的 异常 标志 位 所 表示 
的 异常 类 型 如 图 A-7 所 示 。 如 果 浮 点 运算 单元 在 运算 中 出 现 了 相应 的 异常 ， 则 会 将 fesr 寄存 
器 中 对 应 的 异常 标志 位 设置 为 高 ， 且 会 一 直 保 持 累积 。 软 
件 可 以 通过 写 0 的 方式 单独 清除 某 个 异常 标志 位 。 

在 很 多 的 处 理 器 架构 中 ， 浮 点 运算 产生 结果 异常 都 会 
触发 异常 跳 转 〈Trap) 从 而 进入 异常 模式 。 但 是 请 注意 : 
RISC-V 架构 的 浮 点 指令 在 产生 结果 异常 时 并 不 会 跳 转 进 图 A-7 异常 标志 位 
入 异常 模式 ， 而 是 如 上 所 述 仅 设 置 fesr 寄存 器 中 的 异常 标志 位 。 这 是 RISC-V 架构 的 一 个 显 
著 特 点 。 该 特点 可 以 大 幅 简 化 处 理 器 流水 线 的 硬件 实现 。 

5. 浮 点 舍 入 模式 

根据 IEEE-754 标准 ， 浮 点 数 运 算 需 要 指定 舍 入 模式 (Rounding Mode), RISC-V 架构 浮 
点 运算 的 舍 入 模式 可 以 通过 两 种 方式 指定 。 

CD 静态 舍 入 模式 : 浮 点 指令 的 编码 中 有 3 位 作为 舍 入 模式 域 ， 有关 学 点 指令 列表 以 及 
指令 编码 请 参见 附录 F4。 不 同 的 舍 入 模式 编码 如 图 A-8 所 示 ，RISC-V 架构 支持 五 种 合法 的 
舍 入 模式 。 除 此 之 外 ， 如 果 舍 入 模式 编码 为 101 或 110， 则 为 非法 模式 ;如 果 舍 入 模式 编码 
为 111， 则 意味 着 使 用 动态 舍 入 模式 .。 


和 
Round to Nearest, ties to Even 

001 |RIZ | Round towards Zero 

Round Up (towards oc) 

























NE 

DN 
RMM Round to Nearest, ties to Max Magnitude 
| 10. |  J  |nvalid. Reserved for future use. 
|. HO. | | invalid. Reserved for future use. 


Mes In instruction's rm field, selects dynamic rounding mode; 


In Rounding Mode register, Invalid. 








图 A-8 舍 入 模式 位 


(2) 动态 舍 入 模式 : 如 果 使 用 动态 舍 入 模式 ， 则 使 用 fesr 寄存 器 中 的 舍 入 模式 域 。 如 图 
A-6 所 示 ，fesr 寄存 器 包含 舍 入 模式 域 。 不 同 的 舍 入 模式 编码 同样 如 图 A-8 所 示 ， 仅 文 持 五 
种 合法 的 舍 入 模式 。 如 果 fer 寄存 器 中 的 舍 入 模式 域 指定 为 非法 的 舍 入 模式 ， 则 后 续 浮 点 指 
令 会 产生 非法 指令 异常 。 

6.， 浮 点 fcsr 访问 伪 指 令 

虽然 RISC-V 架构 只 定义 了 一 个 浮 点 控制 寄存 器 (fesr)， 但 是 该 寄存 器 的 人 不同 域 fm 和 
flags 以 及 该 寄存 器 本 喘 fesr 均 被 分 配 了 独立 的 CSR 地 址 ， 如 图 A-9 所 示 。 

为 了 能 够 方便 地 访问 以 上 浮 点 CSR 寄存 器 ，RISC-V 架构 定义 了 一 系列 的 伪 指 令 ， 如 
图 A-10 所 示 。 所 谓 伪 指 令 意味 着 其 并 不 是 一 条 真正 的 指令 ， 而 是 对 其 他 基本 指令 使 用 形式 
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的 一 种 别名 ， 璧 如 伪 指 令 “frcsrrd” 事 实 上 是 基本 CSR 指令 的 使 用 形式 “csrrs rd, fesr, x0". 
Design 


Floating-Point Control and Status Registers 





0x001 Read/write | fflags Floating-Point Accrued Exceptions. 
0x002 Read/write | frm Floating-Point Dynamic Rounding Mode. 
0x003 Read/write | fcsr Floating-Point Control and Status Register (frm 十 fflags). 


A-9 fflags, frm 和 fcsr 的 CSR 地 址 


frcsr rd csrrs rd, fcsr, xO ` Read FP control/status register 
fscsr rd, rs cerrw rd, fcsr, rs Swap FP control/status register 
fscsr rs csrrw xO, fesr, rs Write FP control/status register 
frrm rd csrrs rd, frm, xO Read FP rounding mode 

fsrm rd, rs csrrw rd, frm, rs Swap FP rounding mode 

fsrm rs cerrw xO, frm, rs Write FP rounding mode 

fsrmi rd, imm csrrwi rd, frm, imm Swap FP rounding mode, immediate 
fsrmi imm csrrwi x0, frm, imm Write FP rounding mode, immediate 
frflags rd csrrs rd, fflags, xO Head FP exception flags 

fsflags rd, rs csrrw rd, fflags, rs Swap FP exception flags 

fsflags rs csrrw x0, fflags, rs Write FP exception flags 

fsflagsi rd, imm  csrrwi rd, fflags, imm Swap FP exception flags, immediate 
fsflagsi imm csrrwi x0, fflags, imm Write FP exception flags, immediate 


图 A-10 FA CSR 访问 伪 指 令 


T. 关闭 浮 点 单元 

如 果 处 理 器 不 想 使 用 浮 点 运算 单元 〈 壁 如 将 浮 点 单元 关 电 以 节省 功 耗 )， 可 以 使 用 CSR 
写 指令 将 mstatus 寄存 器 的 FS 域 设 置 成 0， 将 浮 点 单元 的 功能 予以 关闭 。 当 浮 点 单元 的 功能 
关闭 之 后 ， 任 何 访问 浮 点 CSR 寄存 器 的 操作 或 者 任何 执行 浮 点 指令 的 行为 都 将 会 产生 非法 
指令 (Illegal Instruction? 5 ?5. 

请 参见 附录 B2.9 节 了 解 mstatus 寄存 器 FS 域 的 相关 信息 。 

8. 非 规 格 化 数 的 处 理 

RISC-V 架构 规定 ， 对 于 非 规 格 化 数 CSubnormal Numbers) 的 处 理 完 全 遵循 附录 A14.4 
节 列 举 的 IEEE-754 标准 定义 。 

9. Canonical-NaN 数 

根据 IEEE-754 标准 , 在 浮 点 数 的 表示 中 ,有 一 类 特殊 编码 数据 属于 NaN (Not a Number) 
类 型 ， 且 NaN 分 为 Signaling-NaN 和 Quiet-NaN。 有 关 NaN 数据 的 细节 请 参见 附录 A14.4 节 
列举 的 IEEE-754 标准 。 

RISC-V 架构 规定 ， 如 果 浮 点 运算 的 结果 是 一 个 NaN 数 ， 那 么 使 用 一 个 固定 的 NaN 数 ， 
将 之 命名 为 Canonical-NaN。 单 精度 浮 点 对 应 的 Canonical-NaN 数值 为 0x7fc00000， 双 精度 
浮 点 对 应 的 Canonical-NaN 数值 为 0x7ff80000 00000000. 

10. NaN-boxing 

如 果 同 时 支持 单 精度 浮 点 (F 扩展 指令 子 集 ) 和 双 精 度 浮 点 COD 扩展 指令 子 集 )， 由 于 
浮 点 通用 寄存 器 的 宽度 为 64 位 ，RISC-V 架构 规定 单 精度 浮 点 指令 产生 的 32 位 结果 写 入 浮 


362 | RISC-V 架构 指令 集 介绍 


点 通用 寄存 器 〈64 位 宽 ) 时 ， 将 结果 写 入 低 32 位 ， 而 高 位 则 全 部 写 为 数值 1，RISC-V 架构 
规定 此 种 做 法 称 之 为 NaN-boxing。NaN-boxing 可 以 发 生 在 如 下 情形 : 
。 对 于 单 精度 浮 点 读 (Load) / 写 〈Store) 指令 和 传送 (Move) 指令 (pi FLW, FSW, 
FMVWX，FMVX.W)。 如 果 需 要 将 32 位 的 数值 写 入 通用 浮 点 寄存 器 ， 则 采用 NaN-boxing 
的 方式 ; 如 果 需 要 将 浮 点 通用 寄存 器 中 的 数值 读 出 ， 则 仅 使 用 其 低 32 位 数值 。 
e 对 于 单 精度 浮 点 运算 (Compute) 和 符号 注入 〈Sign-injection ) 指令 ， 需 要 判断 其 操 
作 数 浮 点 寄存 器 中 的 值 是 否 为 合法 的 NaN-boxed 1 〈 即 高 32 位 都 为 1)。 如 果 是 ， 
则 正常 使 用 其 低 32 位 ; 如 果 不 是 ， 则 将 此 操作 数 当 作 Canonical-NaN 来 使 用 。 
。 对 于 整数 至 单 精度 浮 点 的 转换 指令 〈 璧 如 FCVT.S.X)， 则 采用 NaN-boxing 的 方式 
写 回 浮 点 通用 寄存 器 。 对 于 单 精 度 浮 点 至 整数 的 转换 指令 ( 壁 如 FCVT.X.S)， 需要 
判断 其 操作 数 浮 点 寄存 器 中 的 值 是 否 为 合法 的 NaN-boxed 值 〈( 即 高 32 位 都 为 1)。 
如 果 是 ， 则 正常 使 用 其 低 32 位 ; 如 果 不 是 ， 则 将 此 操作 数 当 作 Canonical-NaN 来 
使 用 。 
11. 浮 点 数 读 写 指 令 
FLW, FSW, FLD, FSD 指令 
(1) 指令 汇编 格式 


flw rd, offset[11:0] (rs1) 
fsw rs2, offset[11:0] (rs1) 
fld rd, offset[11:0] (rsi) 
fsd rs2, offset[11:0] (rs1) 


(2) 指令 详解 

该 组 指令 进行 存储 器 读 或 者 写 操作 ， 访 问 存储 器 的 地 址 均 由 操作 数 寄 存 器 rsl 中 的 值 与 
12 位 的 立即 数 〈 进 行 符号 位 扩展 ) 相 加 所 得 。 

。 flw 指令 从 存储 器 中 读 回 一 个 单 精 度 浮 点 数 ， 写 回 寄存 器 rd 中 。 

。 fsw 指令 将 操作 数 寄存 器 rs2 中 的 单 精度 浮 点 数 ， 写 回 存储 器 中 。 

。 fld 指令 从 存储 器 中 读 回 一 个 双 精 度 浮 点 数 ， 写 回 寄存 器 rd 中 。 

e fsd 指令 将 操作 数 寄存 器 rs2 中 的 双 精 度 浮 点 数 ， 写 回 存 储 器 中 。 

对 于 浮 点 读 和 写 指令 ，RISC-V 架构 推荐 使 用 地 址 对 齐 的 存储 器 读 写 操作 。 但 是 地 址 非 
对 齐 的 存储 器 操作 RISC-V 架构 也 支持 ， 处 理 器 可 以 选择 用 硬件 来 支持 ， 也 可 以 选择 用 软件 
异常 服务 程序 来 支持 。 蜂 鸟 E200 处 理 器 核 选 择 采用 软件 异常 服务 程序 来 文 持 《〈 即 地 址 非 对 
齐 的 浮 点 数 读 或 写 指令 会 产生 异常 )， 参 见 第 13 章 了 解 更 多 异常 的 相关 信息 。 

对 于 地 址 对 齐 的 存储 器 读 写 操作 ，RISC-V 架构 规定 其 存储 器 读 写 操作 必须 具备 原子 性 。 
有 关 存 储 器 原子 操作 的 背景 知识 请 参见 附录 A14.5 节 对 于 RV32A 指令 子 集 的 介绍 。 

12. 浮 点 数 运算 指令 

注意 : 本 节 所 有 指令 的 浮 点 运算 (Compute) 均 遵 循 附录 A14.4 节 列 举 的 IEEE-754 的 标 


FADD, FSUB, FMUL. FDIV, FSQRT 指令 


CD 指令 汇编 格式 


fadd.s rd, 
fsub.s rd, 
fmul.s rd, 
fdiv.s rd, 
fsqrt.s rd, 
fadd.d rd, 
fsub.d rd, 
fmul.d rd, 
fdiv.d rd, 
fsqrt.d rd, 


(2) 指令 详解 


该 组 指令 进行 加 、 减 、 乘 、 除 、 求 平方 根 操作 。 


FMIN, FMAX 指令 


:~ 
rsi, 
rsi, 
köl; 
rsi 

rsi, 
eei; 
rsl, 
ral, 
rsi 


rs2 
rs2 
rs2 
rs2 


rs2 
rs2 
rs2 
rs2 
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fadd.s 指令 将 操作 数 寄存 器 rsl 与 rs2 中 的 单 精 度 浮 点 数 进 行 加 法 操作 ， 结 果 写 回 寄 


存 器 rd 中 。 


fsub.s 指令 将 操作 数 寄存 器 rsl 与 rs2 中 的 单 精 度 浮 点 数 进行 减法 操作 ， 结 果 写 回 寄 


存 器 rd 中 。 


fmul.s 指令 将 操作 数 寄存 器 rsl 与 rs2 中 的 单 精度 浮 点 数 进行 乘法 操作 ， 结 果 写 回 寄 


存 器 rd 中 。 


fdiv.s 指令 将 操作 数 寄存 器 rsl 与 rs2 中 的 单 精 度 浮 点 数 进行 除法 操作 ， 结 果 写 回 寄 


存 器 rd 中 。 


fsqrt.s 指令 将 操作 数 寄存 器 rsl 中 的 单 精度 浮 点 数 进行 求 平方 根 操作 , 结果 写 回 寄存 


器 rd 中 。 


fadd.d 指令 将 操作 数 寄存 器 rsl 与 rs2 中 的 双 精 度 浮 点数 进行 加 法 操作 ， 结 果 写 回 寄 


存 器 rd 中 。 


fsub.d 指令 将 操作 数 寄存 器 rsl 与 rs2 中 的 双 精 度 浮 点 数 进行 减法 操作 ， 结 果 写 回 寄 


存 器 rd 中 。 


fmul.d 指令 将 操作 数 寄存 器 rsl 与 rs2 中 的 双 精 度 浮 点 数 进行 乘法 操作 ， 结 果 写 回 寄 


存 器 rd 中 。 


fdiv.d 指令 将 操作 数 寄 存 器 rsl 与 rs2 中 的 双 精 度 浮上 点数 进行 除法 操作 ， 结 果 写 回 寄 


存 器 rd 中 。 


fsqrt.d 指令 将 操作 数 寄存 器 rsl 中 的 双 精 度 浮 点 数 进行 求 平方 根 操作 , 结果 写 回 寄存 


器 rd 中 。 
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(1) 指令 汇编 格式 


fmin.s rd, ral, £52 
fmax.s rd, rsl, rs2 
fmin.d rd, rsi, 282 
fmax.d rd, rsl, rs2 
(2) 指令 详解 


该 组 指令 进行 取 大 值 、 取 小 值 操作 。 
。 fmin.s 指令 将 操作 数 寄存 器 rsl 与 rs2 中 的 单 精 度 浮 点 数 进行 比较 操作 ， 将 数值 小 的 


一 方 作 为 结果 写 回 寄存 器 rd 中 。 

。 fmax.s 指令 将 操作 数 寄存 器 rsl 与 rs2 中 的 单 精 度 浮 点 数 进 行 比较 操作 , 将 数值 大 的 
一 方 作为 结果 写 回 寄存 器 rd 中 。 

。 fmin.d 指令 将 操作 数 寄存 器 rsl 与 rs2 中 的 双 精 度 浮 点 数 进行 比较 操作 ， 将 数值 小 的 
一 方 作 为 结果 写 回 寄存 器 rd 中 。 

。 fmax.d 指令 将 操作 数 寄存 器 rsl 与 rs2 中 的 双 精 度 浮 点 数 进行 比较 操作 , 将 数值 大 的 
一 方 作 为 结果 写 回 寄存 器 rd 中 。 


对 于 FMAX fll FMIN 指令 ， 注 意 如 下 特殊 情况 。 

。 如 果 指 令 的 两 个 操作 数 都 是 NaN， 那 么 结果 为 Canonical-NaN. 

。 如 果 只 有 一 个 操作 数 为 NaN， 则 结果 为 非 NaN 的 另外 一 个 操作 数 。 

。 如 果 任 意 一 个 操作 数 属于 Signaling-NaN, 则 需要 在 fscr 寄存 器 中 产生 NV Of bee 

。 由 于 浮 点 数 可 以 表示 两 个 0 值 , 分 别 是 -0.0 和 +0.0, 对 于 FMAX 和 FMIN 指令 而 言 ， 
-0.0 被 认为 比 +0.0 小 。 

FMADD, FMSUB, FNMSUB, FNMADD 指令 

(1) 指令 汇编 格式 


fmadd.s rd, £zsl1, rée2, £83 
fmsub.s rd, rsi; rs2, r83 
fnmadd.s rd, rs1, rs2, rs3 
fnmsub.s rd, rs1; rs2, rai 
fmadd.d rd, rsl, rzs2, r53 


fmsub.d rd, zail. br52, rs3 
fnmadd.d pü. 51. £582, 263 
fnmsub.d rd, 281; rsZ, X53 


(2) 指令 详解 

该 组 指令 进行 一 体 化 乘 累 加 (Fused Multiply-add) 操作 。 

。 fmadd.s 指令 将 操作 数 寄存 器 rsl.rs2 与 rs3 中 的 单 精度 浮 点 数 进行 rsl1*rs2+rs3 操作 ， 
将 结果 写 回 寄存 器 rd 中 。 

。 fmsub.s 指令 将 操作 数 寄存 器 rsl, rs2 与 rs3 中 的 单 精 度 浮 点 数 进 行 rs1*rs2-rs3 操作 ， 


A14 指令 类 型 | 365 


将 结果 与 回 寄 存 器 rd 中 。 

。 fnmadd.s 指令 将 操作 数 寄存 器 rs1、rs2 与 rs3 中 的 单 精度 浮 点 数 进行 - rs1*rs2-rs3 操 
作 ， 将 结果 写 回 寄存 右 rd 中 。 

。 fnmsub.s 指令 将 操作 数 寄存 器 rsl, rs2 与 rs3 中 的 单 精度 浮 点 数 进 行 - rsl*rs2+rs3 操 
作 ， 将 结果 写 回 寄存 器 rd 中 。 

。 fmadd.d 指令 将 操作 数 寄 存 器 rsl\rs2 与 rs3 中 的 双 精 度 浮 点 数 进行 rsl*rs2+rs3 操作 ， 
将 结果 写 回 寄存 器 rd 中 。 

。 fmsub.d 指令 将 操作 数 寄存 器 rsl、rs2 与 rs3 中 的 双 精 度 浮 点 数 进行 rsl*rs2-rs3 操作 ， 
将 结果 写 回 寄存 器 rd 中 。 

。 fnmadd.d 指令 将 操作 数 寄 存 器 rsl, rs2 5j rs3 中 的 双 精 度 浮 点 数 进行 - rs1*rs2-rs3 操 
作 ， 将 结果 写 回 寄存 器 rd 中 。 

。 fnmsub.d 指令 将 操作 数 寄存 器 rs1、rs2 与 rs3 中 的 双 精 度 浮 点 数 进行 - rsl*rs2+rs3 
操作 ， 将 结果 写 回 寄存 器 rd 中 。 

注意 : 对 于 上 述 指令 ， 如 果 两 个 被 乘 数 的 值 为 无 穷 大 和 0， 则 需要 在 fscr 寄存 器 中 产生 


NV 异常 标志 。 


13. 浮 点 数 格 式 转 换 指 令 
FCVT.W.S, FCVT.S.W, FCVT.WU.S, FCVT.S.WU, FCVT.W.D, FCVT.D.W, 


FCVT.WU.D, FCVT.D.WU 指令 


(1) 指令 汇编 格式 


fcvt.w.s rd, rei 
fcvt.s.w Zu. £N 
fcvt.uw.s zd, rsi1 
fcvt.s.uw La; egi 
fevt.w.d rd, rsi 
fcvt.d.w rd, rsi 
fcvt.uw.d rd, rsi 
fcvt.d.uw rd, rsl 
(2) 指令 详解 


该 组 指令 进行 浮 点 与 整数 之 间 的 转换 操作 。 

e fcvt.w.s 指令 将 通用 浮 点 寄存 器 rsl 中 的 单 精度 浮 点 数 转换 成 有 符号 整数 ， 将 结果 写 
回 通 用 整数 寄存 器 rd 中 。 

e fcvt.s.w 指令 将 通用 整数 寄存 器 rsl 中 的 有 符号 整数 转换 成 为 单 精度 浮 点 数 ， 将 结果 
写 回 通用 浮 点 寄存 器 rd 中 。 

e fcvt.uw.s 指令 将 通用 浮 点 寄存 器 rsl 中 的 单 精度 浮 点 数 转换 成 无 符号 整数 , 将 结果 写 
回 通 用 整数 寄存 器 rd 中 。 

e fcvt.s.uw 指令 将 通用 整数 寄存 器 rsl 中 的 无 符号 整数 转换 成 为 单 精度 浮 点 数 , 将 结果 
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写 回 通用 浮 点 寄存 器 rd 中 。 
e fcvt.w.d 指令 将 通用 浮 点 寄存 器 rsl 中 的 双 精 度 浮 点 数 转换 成 有 符号 整数 ， 将 结果 写 
回 通用 整数 寄存 器 rd 中 。 
。 fcvt.d.w 指令 将 通用 整数 寄存 器 rsl 中 的 有 符号 整数 转换 成 为 双 精 度 浮 点 数 ， 将 结果 
写 回 通用 浮 点 寄存 器 rd 中 。 
e fcvt.uw.d 指令 将 通用 浮 点 寄存 器 rsl 中 的 双 精 度 浮 点 数 转 换 成 无 符号 整数 ,将 结果 写 
回 通 用 整数 寄存 器 rd 中 。 
e fcvt.d.uw 指令 将 通用 整数 寄存 器 rsl 中 的 无 符号 整数 转换 成 为 双 精 度 浮 点 数 ， 将 结 
果 写 回 通 用 浮 点 寄存 器 rd 中 。 
注意 : 由 于 浮 点 数 的 表示 范围 远 远大 于 整数 的 表示 范围 ， 且 浮 点 数 存 在 某 些 特殊 的 类 型 
(无 穷 大 或 者 NaN), 因此 将 浮 点 数 转换 成 整数 的 过 程 中 存在 诸多 特殊 情况 ,其 转换 成 为 整数 
的 结果 如 图 A-11 所 示 。 





Cr [FOVEWSTFOVENUS | 
FCVT.S.D, FCVT.D.S 指令 Minimum valid input (after rounding) 0 
Maximum valid input (after rounding) 
(1) 指 邻 汇编 格式 out-of-range negative input 
utput for 一 DO 
fcvt.s.d rd, rsi Saca for out-of-range positive input 
fcvt.d.s rd, rsi Output for --oo or NaN 
(2) 指令 详解 图 A-11 单 精 度 浮 点 数 转换 成 
T 3 i n] ) 
该 组 指令 进行 双 精 度 浮 点 与 单 精 整数 需 处 理 的 特殊 情况 〈 双 精度 同 理 
度 浮 点 之 间 的 转换 操作 。 
。 fcvt.s.d 指令 将 操作 数 寄 存 器 rsl 中 的 双 精 度 浮 点 数 转换 成 单 精度 浮 点 数 ， 将 结果 写 
回 寄存 器 rd 中 。 
。 fcvt.d.s 指令 将 操作 数 寄存 器 rsl 中 的 单 精度 浮 点 数 转换 成 双 精 度 浮 点 数 ， 将 结果 写 
回 寄存 器 rd 中 。 


14. 浮 点 数 符号 注入 指令 
FSGNJ，FSGNJN，FSGNJX 指令 
(1) 指令 汇编 格式 


fsgnj.s rd, rsl, rs2 


fsgnjn.s rd, rsl, rs2 
fsgnjx.s rd, rsi, rs2 
fsgnj.d rd, ral; rs2 
fsgnjn.d rd, r&l, ra2 
fsgnjx.d rd, sl, rs2 
(20 指令 详解 


该 组 符号 注入 指令 〈Sign-injection Instructions) 进行 符号 注入 操作 。 
e fsgnj.s 指令 的 操作 数 均 为 单 精度 浮 点 数 , 结果 的 符号 位 来 自 操 作 数 寄存 器 rs2 的 符号 
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位 ， 结 果 的 其 他 位 来 自 操作 数 寄存 器 rs1， 将 结果 写 回 寄存 器 rd. 

e fgnjn.s 指令 的 操作 数 均 为 单 精度 浮 点 数 ， 结 果 的 符号 位 来 自 操作 数 寄存 器 rs2 的 符 
号 位 取 反 ， 结 果 的 其 他 位 来 自 操 作 数 寄存 器 rs1， 将 结果 写 回 寄存 器 rd. 

。 fsgnjx.s 指令 的 操作 数 均 为 单 精 度 浮 点 数 ， 结 果 的 符号 位 来 自 操作 数 寄存 器 rsl 的 符 
号 位 与 操作 数 寄存 器 rs2 的 符号 位 进行 异 或 (xor). 操作 ， 结 果 的 其 他 位 来 自 操作 数 
寄存 器 rs1， 将 结果 写 回 寄存 器 rd。 | 

。 fsgnj.d 指令 的 操作 数 均 为 双 精 度 浮 点 数 ， 结 果 的 符号 位 来 自 操作 数 寄存 器 rs2 的 符 
号 位 ， 结 果 的 其 他 位 来 自 操 作 数 寄存 器 rs1， 将 结果 写 回 寄存 器 rd. 

。 fsgnjn.d 指令 的 操作 数 均 为 双 精 度 浮 点 数 ， 结 果 的 符号 位 来 自 操 作 数 寄存 器 rs2 的 符 
号 位 取 反 ， 结 果 的 其 他 位 来 自 操作 数 寄存 器 rs1， 将 结果 写 回 寄存 器 rd. 

e fsgnjx.d 指令 的 操作 数 均 为 双 精 度 浮 点 数 ， 结 果 的 符号 位 来 自 操作 数 寄 存 器 rsl 的 符 
号 位 与 操作 数 寄存 器 rs2 的 符号 位 进行 异 或 (xor) 操作 ， 结 果 的 其 他 位 来 自 操作 数 
寄存 器 rs1， 将 结果 写 回 寄存 器 rd. 

注意 : 

。 使 用 上 述 指令 的 不 同形 式 可 以 等 效 为 不 同 的 伪 指 令 , 譬如 FMV、FNEG 和 FABS 等 。 
请 参见 附录 G 了 解 更 多 伪 指 令 信 息 。 

。 FSGNJ、FSGNJN 和 FSGNJX 指令 对 于 NaN 类 型 的 操作 数 并 不 做 特殊 对 待 ， 而 是 将 
其 当 作 普通 操作 数 一 样 进行 符号 注入 操作 。 

15. 浮 点 与 整数 互 搬 指 令 

FMV.X.W, FMV.W.X 指令 

(OD 指令 汇编 格式 


fmv.x.w rd, LBi 
fmv.w.x rd, sol 
(2) 指令 详解 


该 组 指令 进行 浮 点 与 整数 寄存 器 之 间 的 数据 搬运 操作 。 
e。 fmv.x.w 指令 将 通用 浮 点 寄存 器 rsl 中 的 单 精度 浮 点 数 读 出 ， 然 后 写 回 通用 整数 寄存 
器 rd 中。 

。 fmv.w.x 指令 将 通用 整数 寄存 器 rsl 中 的 整数 读 出 ， 然 后 写 回 通用 浮 点 寄存 器 rd 中 。 

注意 : 由 于 32 位 架构 的 通用 整数 寄存 器 的 宽度 为 32 位， 而 双 精 度 浮 点 数 为 64 位 , 无 法 实 
现 双 精度 浮 点 寄存 器 与 整数 寄存 器 之 间 的 数据 互相 搬运 ， 因 此 在 32 位 架构 中 没有 此 类 指令 。 

16. 浮 点 数 比 较 指令 

FLT, FLE, FEQ 指令 

(1) 指令 汇编 格式 
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flt.s £d, rsl;, rs52 
fle.s rd, rsl, rs2 
feq.s rd, rsl, £52 
flt.d rd, rsl, rs2 
fle.d rd, rsl, rs2 
feq.d rd, rsl, rs2 


(2) 指令 详解 
该 组 指令 进行 浮 点 数 的 比较 操作 。 


flt.s 指令 : 如 果 通 用 浮 点 寄存 器 rsl 中 的 单 精度 浮 点 数值 小 于 rs2 中 的 值 ， 则 结果 为 
1， 否 则 为 0， 将 结果 写 回 通用 整数 寄存 器 rd 中 。 

fle.s TH: 如 果 通 用 浮 点 寄存 器 rsl 中 的 单 精 度 浮 点 数值 小 于 或 者 等 于 rs2 中 的 值 ， 
则 结果 为 1， 和 否则 为 0， 将 结果 写 回 通用 整数 寄存 器 rd 中 。 

feq.s 指令 : 如 果 通 用 浮 点 寄存 器 rsl 中 的 单 精 度 浮 点 数值 等 于 rs2 中 的 值 ， 则 结果 为 
1， 否 则 为 0， 将 结果 写 回 通用 整数 寄存 器 rd 中 。 

fld 指令 : 如 果 通 用 浮 点 寄存 器 rsl 中 的 双 精 度 浮 点 数值 小 于 rs2 中 的 值 ， 则 结果 为 
1， 否 则 为 0， 将 结果 写 回 通用 整数 寄存 器 rd 中 。 

fle.d 指令 : 如 果 通 用 浮 点 寄存 器 rsl 中 的 双 精 度 浮 点 数值 小 于 或 者 等 于 rs2 中 的 值 ， 
则 结果 为 |， 否则 为 0， 将 结果 写 回 通用 整数 寄存 器 rd 中 。 

feq.d 指令 : 如 果 通 用 浮 点 寄存 器 rsl 中 的 双 精 度 浮 点 数值 等 于 rs2 中 的 值 ， 则 结果 
为 1， 否 则 为 0， 将 结果 写 回 通用 整数 寄存 右 rd 中 。 


注意 : 


对 于 FLT、FLE 和 FEQ 指令 ， 如 果 任 何 一 个 操作 数 为 NaN， 则 结果 为 0。 

对 于 FLT 和 FLE 指令 ， 如 果 任 意 一 个 操作 数 属 于 NaN,， 则 需要 在 fcr 寄存 器 中 产生 
NV 异常 标志 。 

对 于 FEQ 指令 ， 如 果 任 意 一 个 操作 数 属于 Signaling-NaN， 则 需要 在 fscr 寄存 器 中 
产生 NV 异常 标志 。 


17. 浮 点 数 分 类 指令 
FCLASS 指令 

(1) 指令 汇编 格式 
fclass.s rd, $s 
fclass.d rd, rsl 
(2) 指令 详解 


该 组 指令 进行 浮 点 数 的 分 类 操作 。 
e fclass.s 指令 : 对 通用 浮 点 寄存 器 rsl 中 的 单 精度 浮 点 数 进 行 判 断 , 根据 其 所 属 的 类 型 ， 


生成 一 个 10 位 的 独 热 码 〈one-hot) 结果 ， 结 果 的 每 一 位 对 应 一 种 类 型 ， 如 图 A-12 所 


示 ， 将 结果 写 回 通用 整数 寄存 器 rd 中 。 

e fclass.d 指令 : 对 通用 浮 点 寄存 器 rsl 中 
的 双 精 度 浮 点 数 进行 判断 ， 根据 其 所 属 的 
类 型 , 生成 一 个 10 位 的 独 热 码 (one-hot) 
结果 ， 结 果 的 每 一 位 对 应 一 种 类 型 ， 如 
图 A-12 所 示 , 将 结果 写 回 通用 整数 寄存 
器 rd 中。 
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CmiWr[Memig — — — —  ] 


rsi is 一 CQ. 


rsi is a negative normal number. 
rsi is a negative subnormal number. 


rsl is —0. 

rsi is 4-0. 

rsi is a positive subnormal number. 
rsl is a positive normal number. 
ral is 十 co， 

rsi is a signaling NaN. 

rsi is a quiet NaN. 


图 A-12 浮 点 分 类 指令 的 分 类 结果 





A14.5 ”存储 器 原子 操作 指令 “RV32A 指令 子 集 ) 


本 节 介 绍 RISC-V 架构 的 原子 操作 指令 ， 在 RISC-V 的 “指令 集 文档 ”中 并 未 对 存储 器 
原子 操作 指令 进行 系统 解释 ， 因 为 “指令 集 文档 ”是 对 RISC-V 架构 的 精确 定义 ， 而 非 计 算 
机 体系 结构 的 教学 文章 。 为 了 便于 读者 理解 ， 本 书 单独 设立 附录 玉 对 原子 操作 指令 的 相关 知 
识 背 景 予 以 简介 ， 建 议 读者 先 参见 附录 E 中 的 相关 背景 介绍 。 

阅读 了 附录 E 的 读者 ， 想 必 已 了 解 RISC-V 架构 定义 了 可 选 的 〈 非 必需 的 ) 存储 器 原子 
操作 指令 CA 扩展 指令 子 集 )。 该 扩展 指令 子 集 支持 两 类 指令 : 


e Atomic-Memory-Operation (AMO) 指令 


e  Load-Reserved 和 Store-Conditional 指令 


1. Atomic-Memory-Operation (AMO) 指令 


AMO 指令 


注意 : 本 节 仅 介绍 RISC-V 32 位 架构 的 AMO 指令 。 


(1) 指令 汇编 格式 


amoswap.w rd, rs2, (rsl) 


amoadd.w rd, zs2, (rsl) 
amoand.w rd, rs2, (rsl) 
amoor.w rd, rs2, (r81) 
amoxor.w rd, rs2, (rsl) 
amomax.w rd, rs2, (r81) 
amomaxu.w rd, TEZ, (rsl) 
amomin.w rd, rs2, (rsl) 

| amominu.w rd, rs2, (ral) 
(2) 指令 详解 


此 类 指令 用 于 从 存储 器 〈 地 址 为 rsl 寄存 器 的 值 指定 ) 中 读 出 一 个 数据 ， 存 放 至 rd 寄存 
器 中 ， 并 且 将 读 出 的 数据 与 rs2 寄存 器 的 值 进行 计算 ， 再 将 计算 后 的 结果 写 回 人 存储器 〈 人 存储 


器 写 回 地 址 与 读 出 地 址 相同 )。 


对 读 出 数据 进行 的 计算 操作 类 型 依赖 于 具体 的 指令 类 型 。 
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amoswap.w ”将 读 出 的 数据 与 rs2 寄存 器 的 值 进行 互 换 。 

amoadd.w 将 读 出 的 数据 与 rs2 寄存 器 的 值 进行 加 法 操作 。 

amoand.w 将 读 出 的 数据 与 rs2 寄存 器 的 值 进行 与 操作 。 

amoor.w 将 读 出 的 数据 与 rs2 寄存 器 的 值 进 行 或 操作 。 

amoxor.w 将 读 出 的 数据 与 rs2 寄存 器 的 值 进行 异 或 操作 。 

amomax.W 将 读 出 的 数据 与 rs2 寄存 器 的 值 进 行 ( 当 作 有 符号 数 ) 取 最 大 值 操作 。 

e amomaxuw 将 读 出 的 数据 与 rs2 寄存 器 的 值 进行 ( 当 作 无 符号 数 ) 取 最 大 值 操作 。 

e amomin.w 将 读 出 的 数据 与 rs2 寄存 器 的 值 进 行 ( 当 作 有 符号 数 ) 取 最 小 值 操 作 。 

e amominuw ”将 读 出 的 数据 与 rs2 寄存 器 的 值 进行 ( 当 作 无 符号 数 ) 取 最 小 值 操 作 。 

对 于 32 位 架构 的 AMO 指令 ， 访 问 存 储 器 的 地 址 必须 与 32 位 对 齐 ， 否则 会 产生 地 址 非 
对 齐 异 常 (AMO Misaligned Address Exception). 

AMO 指令 要 求 整个 “ 读 出 -计算 - 写 回 ”过 程 必须 为 “Atomic CAT)” TER. Brill 
性 质 即 整 个 “ 读 出 -计算 - 写 回 ”过 程 必须 能 够 确切 完成 ， 在 读 出 和 写 回 之 间 的 间 际 ， 存 储 器 
的 该 地 址 不 能 够 被 其 他 的 进程 访问 (通常 会 将 总 线 锁定 )。 请 参见 附录 E 了 解 更 多 背景 知识 
和 相关 信息 。 

AMO 指令 还 支持 释放 一 致 性 模型 (Release Consistency Model)， 有 关 释 放 一 致 性 模型 
的 知识 背景 请 参见 附录 D2.3 节 。 如 图 A-13 所 示 ，AMO 指令 的 编码 中 包含 了 aq/rl 编码 位 ， 
分 别 表 示 获 取 或 者 释放 操作 。 通 过 设置 不 同 的 编码 位 ， 束 可 以 赋予 AMO 指令 获取 或 者 释放 
操作 属性 ， 有 关 获 取 或 者 释放 操作 属性 的 含义 ， 请 参见 附录 D2.3 节 。 
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8 A-13 AMO 指令 的 指令 编码 


e amoswap.w rd,rs2, (rs1) 指 令 不 具有 获取 和 释放 属性 ， 不 具备 屏障 功能 。 

e amoswap.w.aq rd,rs2, (rs1) 指 令 具 有 获取 属性 ， 能 够 屏障 其 之 后 的 所 有 存储 器 访问 操作 。 

e amoswap.w.l  rd,rs2, (rsl) 指令 具有 释放 属性 , 能 够 屏障 其 之 前 的 所 有 存储 器 访问 
BRE. 

e | amoswap.w.aqrl rd, rs2, (rs1) 指令 同时 具有 获取 和 释放 属性 ， 能 够 屏障 其 之 前 和 之 
后 的 所 有 存储 器 访问 操作 。 

使 用 带 有 获取 或 者 释放 属性 的 AMO 指令 可 以 实现 如 附录 E 中 介绍 的 “上 锁 ” 操 作 。 其 

示例 程序 代码 如 下 : 
li €0, 1 # 将 TO 寡 存 器 的 值 初 始 化 为 1 


again: 


amoswap.w.aq t0, tO, (a0) € 使 用 带 获 取 属 性 的 amoswap 指令 ， 将 存在 (a0) 地 址 中 的 
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# ” 锁 的 值 读 出 ， 并 将 cO 之 前 的 值 写 入 〈a0) 地 址 。 


bnez t0, again # 如 果 锁 中 的 值 非 0， 意 味 着 当前 的 锁 仍 然 被 其 他 进程 占用 ， 因 此 重 
# ”新 读 取 锁 的 值 。 

， uu # 否则 ， 如 果 锁 中 的 值 为 0， 则 意味 着 上 锁 成 功 ， 可 以 进行 独占 后 的 
# ”后 续 操 作 。 


# Critical section. 


amoswap.w.rl x0, x0, (a0) + 完成 操作 后 ， 通 过 带 有 释放 属性 的 amoswap 指令 向 锁 中 写 
# ”入 数值 0， 将 锁 释放 。 

2. Load-Reserved 和 Store-Conditional 指令 

Load-Reserved/Store-Conditional 指令 

注意 : 本 市 仅 介 绍 RISC-V 32 位 架构 的 Load-Reserved 和 Store-Conditional 指令 。 

(1) 指令 汇编 格式 


lr.w rd, (rs1) 
SC.W rd. XE2.. (E81) 
(2) 指令 详解 


Load-Reserved 和 Store-Conditional 指令 的 功能 与 附录 E3 中 介绍 的 互 斥 读 CLoad- 
Exclusive) 和 互 斥 写 〈Store-Exclusive) 指令 完全 相同 ， 请 参见 附录 E 了解 更 多 相关 背景 
知识 。 

LR (Load-Reserved) 指令 用 于 从 存储 器 (地 址 为 rsl 寄存 器 的 值 指定 ) 中 读 出 一 个 32 
位 数据 ， 存 放 至 rd 寄存 器 中 。 

SC (Store-Conditional) 指令 用 于 同 存 储 器 〈 地 址 为 rsl 寄存 器 的 值 指定 ) 中 写 入 一 个 
32 位 数据 ， 数 据 的 值 来 自 于 rs2 寄存 器 中 的 值 。SC 指令 不 一 定 能 够 执行 成 功 ， 只 有 满足 如 
下 条 件 ，SC 指令 才能 够 执行 成 功 。 

e LR 和 SC 指令 成 对 地 访问 相同 的 地 址 。 

。 LR 和 SC 指令 之 间 没 有 任何 其 他 的 写 操作 来自 任何 一 个 Hart? 访问 过 同样 的 地 址 。 

。 LR 和 SC 指令 之 间 没 有 任何 中 断 与 异常 发 生 。 

。 LR 和 SC 指令 之 间 没 有 执行 MRET 指令 。 

如 果 执 行 成 功 ， 则 问 rd 寄存 器 写 回 数值 0， 如 果 执 行 失 败 ， 则 疝 rd 寄存 器 写 回 一 个 非 
零 值 ， 如 果 执 行 失 败 ， 意 味 着 没有 真正 写 入 存储 器 。 

对 于 32 位 架构 的 LR 和 SC 指令 ,访问 存储 器 的 地 址 必须 与 32 位 对 齐 ， 否 则 会 产生 地 
址 非 对 齐 异 常 (misaligned address exception). 

LR/SC 指令 也 支持 释放 一 致 性 模型 ， 有 关 释 放 一 致 性 模型 的 知识 背景 请 参见 附录 D2.3 
TH. WE A-14 所 示 ，LR/SC 指令 的 编码 中 包含 了 aql 编码 位 ， 分 别 表示 获取 (acquire) 或 
者 释放 (release) 操作 。 与 AMO 指令 相同 ， 通 过 设置 不 同 的 编码 位 ， 就 可 以 赋予 LR/SC 18 
令 获 取 或 者 释放 操作 属性 ， 有 关 获 取 或 者 释放 操作 属性 的 含义 ， 请 参见 附录 D2.3 节 。 
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图 A-14 LR/SC 指令 的 指令 编码 
A14.6 16 位 压缩 指令 (RV32C 指令 子 集 ) 


本 节 介 绍 RISC-V 架构 的 16 位 长 度 编码 的 压缩 指令 (C 扩展 指令 子 集 )。 有 关 RISC-V 
架构 压缩 指令 的 特点 和 概述 ， 请 参见 第 2.2.11 节 。 

如 第 2.2.11 节 所 述 ， RISC-V 架构 的 精妙 之 处 在 于 每 一 条 16 位 的 指令 都 能 找到 一 一 对 
应 的 原始 32 位 指令 。 本 节 将 RISC-V 32 位 架构 下 的 压缩 指令 (RV32C) 进行 列举 ， 并 给 出 
其 对 应 的 原始 32 位 指令 ， 如 表 A-1 所 示 。 对 于 每 条 16 位 指令 的 有 具体 描述 ， 本 节 不 再 乾 述 ， 
请 参见 其 相应 的 32 位 指令 功能 描述 ， 或 RISC-V 架构 “指令 集 文档 ”原文 。 

注意 : 由 于 16 位 指令 的 编码 长 度 有 限 ， 因 此 有 的 指令 只 能 使 用 8 个 最 为 常用 的 通用 寄 
存 器 作为 操作 数 ， 即 编号 x8 一 x15 的 8 个 通用 寄存 器 〈 如 果 使 用 的 是 浮 点 通用 寄存 器 ， 则 为 
促 一 和 5)， 但 有 的 指令 还 是 可 以 使 用 所 有 的 通用 寄存 器 作为 操作 数 。 有 关 RV32C 指令 的 详细 
编码 请 参见 附录 F6。 


3X A-1 RV32C 指令 列表 

注意 ; 

。 表格 中 仅 介 绍 RISC-V 32 位 架构 的 压缩 指令 (RV32C) 

e 荣 些 压缩 指令 的 操作 数 寄存 器 索引 不 能 为 特定 值 ， 辟 如 rsl 索引 不 能 等 于 0， 否 则 为 非法 指令 。 有 关 每 条 指令 的 具体 非法 
情形 ， 请 参见 附录 F6 中 RVC 指令 编码 图 表 


指令 分 组 注意 事项 
Stack-Pointer-Based e 此 指令 可 以 使 用 所 有 的 通用 寄存 器 
Loss nd Sore Une 
。 RR REUS HOUR 
Register-Based Loads 用 寄存 器 作为 操作 数 〈 其 中 ，c.flwic.fld 
and Stores 的 rd 和 c.fsw/c.fsd 的 rs2 为 通用 浮 点 寄 
和 
Enti ctinh 。 下 指令 可 以 使 用 所 有 的 通用 寄存 加 
ott 
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续 表 
指令 分 组 对 应 32 位 指令 注意 事项 
Control Transfer 。 此 指令 只 能 够 使 用 8 个 最 为 常用 的 
Instructions bne rs1, x0, offset[8:1] 通用 寄存 器 作为 操作 数 
| 
。 此 指令 可 以 使 用 所 有 的 通用 寄存 器 


c.lui rd, nzuimm[17:12] lui rd, nzuimm[17:12] 

作为 操作 数 
c.addi rd, nzimm[5:0] addi rd, rd, nzimm[5:0] 
addi x2, x2, nzimm[9:4] 


c.addilósp nzimm[9:4] 
。 此 指令 只 能 够 使 用 8 个 最 为 常用 的 
通用 寄存 器 作为 操作 数 

。 此 指令 可 以 使 用 所 有 的 通用 寄存 器 
作为 操作 数 


c.addidspn rd, nzuimm[9:2] addi rd, x2, nzuimm[9:2] 


c.slli rd, shamt[5:0] slli rd, rd, shamt[5:0] 
Integer Computational 


c.srli rd, rd, shamt[5:0] srli rd, rd, shamt[5:0] 


— c.srai rd, shamt[5:0] srai rd, rd, shamt[5:0] AARSE ATST ON 
通用 寄存 器 作为 操作 数 
c.andi rd, imm[5:0] andi rd, rd, imm[5:0] 
c.mv rd, rs2 add rd, x0, rs2 。 此 指令 可 以 使 用 所 有 的 通用 寄存 器 
c.add rd, rs2 add rd, rd, rs2 作为 操作 数 
c.and rd, rs2 and rd, rd, rs2 
。 此 指令 只 能 名 使 用 8 个 最 加 用 的 
xor rd, rd, rs2 通用 寄存 器 作为 操作 数 


| 。 32 位 的 nop 指令 对 应 的 实际 指令 纺 
NOP Instruction addi x0, x0, 0. 
码 也 是 addi x0, x0, 0 


TTTTTTT - 


RISC-V 架构 规定 ， 对 于 任意 长 度 编码 的 指令 ， 只 要 编码 是 全 0 或 者 全 1 都 是 非法 指令 ， 这 个 特性 在 抓 出 
某 些 特殊 错误 情况 非常 有 用 ， 辟 如 取 指 进入 全 0 的 数据 段 ， 未 连接 的 总 线 或 者 未 初始 化 的 存储 器 段 等 
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RISC-V 架构 定义 了 一 系列 的 伪 指 令 ， 所 谓 伪 指令 意味 着 它 并 不 是 一 条 真正 的 指令 ， 而 
是 对 其 他 基本 指令 使 用 形式 的 一 种 别名 ， 请 参见 附录 G 了 解 完整 的 伪 指 令 列表 。 
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RV32GC 的 完整 指令 列表 及 其 编码 ， 请 参见 附录 下。 


Defined Illegal Instruction 
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RISC-V 的 架构 中 定义 了 一 些 控制 和 状态 寄存 器 (Control and Status Register; CSR), H 
于 配置 或 记录 一 些 运行 的 状态 。CSR 寄存 器 是 处 理 器 核 内 部 的 寄存 器 ， 使 用 其 专 有 的 12 位 
地 址 编码 空间 。 

附录 对 于 CSR 寄存 器 的 介绍 翻译 自 RISC-V 的 “特权 架构 文档 ”， 本 书 对 相关 内 容 进 行 
了 重新 组 织 ， 以 求 通俗 易 懂 。 

注意 : 附录 仅 介 绍 RV32GC， 且 只 支持 机 器 模式 (Machine Mode Only) 相关 的 CSR 天 
存 器 。 有 关 RISC-V 所 有 CSR 寄存 器 的 完整 介绍 ， 感 兴趣 的 读者 请 参见 RISC-V“ 特 权 巢 构 
文档 ”原文 。 


B1 EAF 支持 的 CSR 寄存 器 列表 


蜂鸟 E200 支持 的 CSR 寄存 器 列表 如 表 B-1 所 示 , 其 中 包括 RISC-V 标准 的 CSR 寄存 器 
(RV32GC 且 只 支持 机 器 模式 相关 ) 和 蜂鸟 E200 自 定义 扩展 的 CSR AAT 
注意 : 有 关 每 个 寄存 器 的 详细 解释 ， 请 参见 B2。 





| mscath | 机 器 模式 擦 写 寄存 器 (Machine Scratch Register) 
| mee | 机 器 模式 异常 PC 寄存 器 (Machine Exception Program Counter) 
mcause — 机 器 模式 异常 原因 寄存 器 (Machine Cause Register) 


表 B-1 蜂鸟 E200 支持 的 CSR 寄存 器 列表 
类 型 读 写 属性 全 称 
| O00 | MRW | mags | 浮 点 累积 异常 (Floating-Point Accrued Exceptions) 
浮 点 动态 舍 入 模式 (Floating-Point Dynamic Rounding Mode) 
浮 点 控制 和 状态 寄存 器 (Floating-Point Control and Status Register ) 
0x300 | MRW | mstatus | 机 器 模式 状态 寄存 器 (Machine Status Register) 
ae | 0301 | MRW | mia | 机 器 模式 指令 集 架 构 寄存 器 (Machine ISA Register) 
E csi | ox304 | MRW | me | 机 器 模式 中 断 使 能 寄存 器 (Machine Interrupt Enable Registers ) 
机 器 模式 异常 入 口 基地 址 寄存 器 (Machine Trap-Vector Base-Address 
rx 
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续 表 


类 型 — e 称 


mtval (又 名 
0x343 机 器 模式 异常 值 寄存 器 (Machine Trap Value Register) 
Wirt 


| — mip | 机 器 模式 中 新 等 竺 寄存器 (Machine Interrupt Pending Registers ) 


周期 计数 器 的 低 32 位 (Lower 32 bits of Cycle counter) 

周期 计数 器 的 高 32 位 Upper 32 bits of Cycle counter) 

退休 指令 计数 器 的 低 32 f% (Lower 32 bits of Instructions-retired counter) 
nis 退休 指令 计数 器 的 高 32 f. (Upper 32 bits of Instructions-retired counter) 
准 CSR 机 器 模式 供应 商 编号 寄存 器 (Machine Vendor ID Register 

| OxFI2 | MRO | marchid | 机 器 模式 架构 编号 寄存 器 (Machine Architecture ID Register) 

| OxFI3 | MRO | mimpid | 机 器 模式 硬件 实现 编号 寄存 器 (Machine Implementation ID Register?) 

Hart 编号 寄存 器 (Hart ID Register) 

机 器 模式 计时 器 寄存 器 (Machine-mode timer register) 

机 器 模式 计时 器 比较 寄存 器 (Machine-mode timer compare register) 


机 器 模式 软件 中 断 等 待 寄存 器 CMachine-mode Software Interrupt 
N/A MRW 
Pending Register) 
蜂鸟 E200 自 定义 寄存 器 用 于 停止 mtime mcycle, meycleh, minstret 和 minstreth 
: OxBFF MRW mcounterstop . 
自 定 义 CSR 对 应 的 计数 器 
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本 节 介 绍 RISC-V 架构 RV32GC， 且 只 支持 机 器 模式 相关 的 CSR 寄存 器 。 


B2.1 misa 


misa 寄存 器用 于 指示 当前 处 理 器 所 支持 的 架构 特性 。 

misa 寄存 器 的 最 高 两 位 用 于 指示 当前 处 理 器 所 支持 的 架构 位 数 。 

。 如 果 最 高 两 位 值 为 1， 则 表示 当前 为 32 位 架构 (RV32)。 

。 如 果 最 高 两 位 值 为 2， 则 表示 当前 为 64 位 架构 CRV64). 

。 如果 最 高 两 位 值 为 3， 则 表示 当前 为 128 位 架构 (RV128)。 

misa 寄存 器 的 低 26 位 用 于 指示 当前 处 理 器 所 支持 的 RISC-V ISA 中 不 同 模块 化 指令 子 
集 ， 每 一 位 表示 的 模块 化 指令 子 集 如 图 B-1 所 示 。 

注意 : misa 寄存 器 在 RISC-V 架构 文档 中 被 定义 为 可 读 可 写 的 寄存 器 ， 从 而 允许 某 些 处 
理 器 的 设计 能 够 动态 地 配置 某 些 特性 。 但 是 在 蜂 乌 E200 的 实现 中 ，misa 寄存 器 为 只 读 寄存 
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器 ， 人 恒定 地 反映 不 同型 号 处 理 器 核 所 支持 的 ISA 模块 化 子 集 。 壁 如 蜂鸟 E203 核 支持 
RV32IMAC, 则 反映 于 此 寄存 器 中 , 最 高 两 位 值 为 1, 低 26 位 中 IWMI/A/C 对 应 域 的 值 即 为 高 。 
[Bi|Chamcer[Decpin ^ | 


Q o6 -1 Cc C ;E C5 t2 —- OO 


B2.2 mvendorid 





A 
B 
C 
D 
E 
F 
G 
H 
I 
J 
K 
L 
M 
N 
O 
P 
Q 
R 
S 
T 
U 
V 
W 
X 
Y 
Z 


Atomic extension 

Tentatively reserved for Bit operations extension 
ressed extension 

Double-precision floating-point extension 

RV32E base ISA 

Single-precision floating-point extension 

Additional standard extensions present 


Reserved 

RV321/641/1281 base ISA 

Tentatively reserved for Dynamically Translated Languages extension 
Reserved 

Tentatively reserved for Decimal Floating-Point extension 
Integer Multiply /Divide extension 

User-level interrupts supported 

Reserved 

Tentatively reserved for Packed-SIMD ertension 
Quad-precision floating-point extension 

Reserved 

Supervisor mode implemented 

Tentatively reserved for Transactional Memory extension 
User mode implemented 

Tentatively reserved for Vector extension 

Reserved 

Non-standard extensions present 

Reserved 

Reserved 


misa 寄存 器 低 26 位 各 域 表示 的 模块 化 指令 子 集 


此 寄存 器 是 只 读 寄存 器 ， 用 于 反映 该 处 理 器 核 的 商业 供应 商 编号 (Vendor ID). 
如 果 此 寄存 器 的 值 为 0， 则 表示 此 寄存 器 未 实现 ， 或 者 表示 此 处 理 器 不 是 一 个 商业 处 理 


器 核 。 
B2.3 marchid 


此 寄存 器 是 只 读 寄 存 器 , 用 于 反映 该 处 理 器 核 的 硬件 实现 微 架 构 编 号 CMicroarchitecture ID). 
如 果 此 寄存 器 的 值 为 0， 则 表示 此 寄存 器 未 实现 。 


B2.4 mimpid 


此 寄存 器 是 只 读 寄 存 器 ， 用 于 反映 该 处 理 器 核 的 硬件 实现 编号 CImplementation ID). 
如 果 此 寄存 器 的 值 为 0， 则 表示 此 寄存 器 未 实现 。 


B2.5 mhartid 


此 寄存 器 是 只 读 寄存 器 ,用 于 反映 当前 Hart 的 编号 (Hart ID). AX Hart 的 概念 请 参见 
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附录 A9 中 所 述 。 
RISC-V 架构 规定 ， 如 果 在 单 Hart 或 者 多 Hart 的 系统 中 ， 起 码 要 有 一 个 Hart 的 编号 必 
须 是 0。 


B2.6 fflags 


fflags 寄存 器 为 浮 点 控制 状态 寄存 器 Cfcsr) 中 浮 点 异常 标志 位 (Accrued Exceptions) 3X 
的 别名 。 之 所 以 单独 定义 一 个 fflags 寄存 器 , 是 为 了 方便 使 用 CSR 指令 直接 地 单独 读 写 浮 点 
请 参见 附录 A14.4 节 了 解 更 多 浮 点 异常 标志 位 的 相关 信息 。 


B2.7 frm 


fim 寄存 器 为 浮 点 控制 状态 寄存 器 中 浮 点 舍 入 模式 (Rounding Mode) 域 的 别名 。 之 所 
以 单独 定义 一 个 frm 寄存 器 ， 是 为 了 方便 使 用 CSR 指令 直接 地 单独 读 写 浮 点 舍 入 模式 。 
请 参见 附录 A14.4 节 了 解 更 多 浮 点 舍 入 模式 的 相关 信息 。 


B2.8 fcsr 


RISC-V 染 构 规定 ， 如 果 支 持 单 精度 浮 点 指令 或 者 双 精 度 浮 点 指令 ， 则 需要 增加 一 个 浮 
扩 控 制 状 态 寄 存 器 。 该 寄存 器 包含 了 浮 扣 异常 标志 位 域 CAccrued Exceptions) MF ASAI 
式 (Rounding Mode) 域 。 

请 参见 附录 A14.4 节 了 解 更 多 浮 点 控制 状态 寄存 器 的 相关 信息 。 


B2.9 mstatus 


mstatus 寄存 器 是 机 器 模式 (Machine Mode) 下 的 状态 寄存 器 。 

如 图 B-2 所 示 ， 该 寄存 器 包含 若干 不 同 的 功能 域 ， 其 中 TSR、TW、TVM、MXR、SUM.、 
MPRV、SPP、SPIE、UPIE、SIE 以 及 UIE 域 与 本 书 介绍 的 配置 (RV32GC 且 只 支持 机 器 模式 )》 
无 关 ， 因 此 在 此 不 做 介绍 。 本 书 仅 对 剩余 的 SD、XS、FS、MPP、MPIE 以 及 MIE 域 予以 介绍 。 


31 30 M ow Uu 0: 19 — 18, if 
ED 
1 8 HE b *1 I 


16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 
| XS[1:0] | FS[1:0] | MPP[1:0] | WPRI | SPP | MPIE | WPRI | SPIE | UPIE | MIE | WPRI | SIE | UIE | 
2 2 2 2 1^ 3 1 w 1 IO 3 


图 B-2 mstatus 寄存 器 格式 
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1. mstatus 的 MIE 域 

mstatus 寄存 器 中 的 MIE 域 表 示 全 局 中 断 使 能 。 当 该 MIE 域 的 值 为 1 时 ， 表 示 所 有 中 断 
的 全 局 开关 打开 ; 当 MIE 域 的 值 为 0 时 ， 表 示 全 局 关闭 所 有 的 中 断 。 

为 了 理解 此 寄存 器 ， 请 先 参见 第 13 章 系统 地 了 解 中 断 和 异常 的 相关 信息 。 

2. mstatus 的 MPIE、MPP 域 

mstatus 寄存 器 中 的 MPIE 和 MPP 域 分 别 用 于 保存 进入 异常 之 前 MIE 域 和 特权 模式 
(Privilege Mode) 的 值 。 

为 了 理解 此 寄存 器 ， 请 先 参见 第 13 章 系 统 地 了 解 中 断 和 异常 的 相关 信息 。 

RISC-V 架构 规定 ， 处 理 器 进入 异常 时 : 

。 MPIE 域 的 值 被 更 新 为 当前 MIE 的 值 。 

。 MIE 的 值 则 被 更 新 成 为 0 (意味 着 进入 异常 服务 程序 后 中 断 被 屏蔽 )。 

。 MPP 的 值 被 更 新 为 异常 发 生前 的 模式 (如 果 是 只 支持 机 器 模式 ， 则 MPP 的 值 永远 

H3 1D. 
3. mstatus 的 FS 域 
mstatus 寄存 器 中 的 FS 域 用 于 维护 或 反映 浮 点 单元 的 状态 , FS 域 由 两 位 组 成 ,其 编码 如 










图 B-3 所 示 。 
All off 
FS 域 的 更 新 准则 如 下 。 a 


None dirty or clean, some on 


1 | haviaa 
。 FS 上 电 后 的 默认 值 为 0， 意 味 着 浮 点 
单元 的 状态 为 Off。 因 此 为 了 能 够 正常 9 
使 用 浮 点 单元 ， 软 件 需 要 使 用 CSR 写 ht 
指令 将 FS 的 值 改写 为 非 0 值 ， 以 打开 浮 点 单元 的 功能 。 
。 WR FS 的 值 为 1 或 者 2， 当 执行 了 任何 的 浮 点 指令 之 后 ，FS 的 值 会 自动 切换 为 3， 
表示 浮 点 单元 的 状态 为 脏 Dirty) RERE TAE). 
。 如 果 处 理 器 不 想 使 用 浮 点 运算 单元 〈 辟 如 将 浮 点 单元 关 电 以 节省 功 耗 );)， 可 以 使 用 
CSR 写 指令 将 mstatus 寄存 器 的 FS 域 设 置 成 0， 将 浮 点 单元 的 功能 予以 关闭 。 当 浮 
点 单元 的 功能 关闭 之 后 , 任何 访问 浮 点 CSR 寄存 器 的 操作 或 者 任何 执行 浮 点 指令 的 
行为 都 将 会 产生 非法 指令 Illegal Instruction? F% o 
除了 用 于 上 述 功 能 ，FS 域 的 值 还 用 于 操作 系统 在 进行 上 下 文 切换 时 的 指引 信息 ， 由 于 
此 内 容 超 出 本 书 的 介绍 范围 (只 支持 机 器 模式 不 支持 操作 系统 )， 因 此 附录 在 此 不 做 介绍 。 
感 兴趣 的 读者 请 参见 RISC-V“ 特 权 架 构 文 档 ” 原 文 。 
4. mstatus 的 XS 域 
mstatus 寄存 器 中 的 XS 域 与 FS 域 的 作用 类 似 ， 但 是 其 用 于 维护 或 反映 用 户 自 定义 的 扩 
展 指令 单元 状态 。 


None dirty, some clean 
Some dirty 
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在 标准 的 RISC-V“ 特 权 架 构 文 档 ” 中 定义 XS 域 为 只 读 域 ， 其 用 于 反映 所 有 自 定义 扩 
展 指令 单元 的 状态 总 和 。 但 请 注意 : 在 蜂鸟 E200 的 硬件 实现 中 ， 将 XS 域 设 计 成 可 写 可 读 
域 ， 其 作用 完全 与 FS 域 类 似 ， 软 件 可 以 通过 改写 XS 域 的 值 达 到 打开 或 者 关闭 协 处 理 器 扩 
展 指令 单元 的 目的 。 请 参见 第 16 章 了 解 更 多 蜂鸟 E200 协 处 理 器 扩展 的 相关 信息 。 

与 FS 域 类 似 , XS 除了 用 于 上 述 功能 之 外 , 还 用 于 操作 系统 在 进行 上 下 文 切 换 时 的 指引 
信息 。 由 于 此 内 容 超 出 本 书 的 介绍 范围 (只 支持 机 器 模式 不 支持 操作 系统 )， 因 此 附录 在 此 
不 做 介绍 ， 感 兴趣 的 读者 请 参见 RISC-V“ 特 权 架 构 文档 ”原文 。 

5. mstatus 的 SD 域 

mstatus 寄存 器 中 的 SD 域 是 一 个 只 读 域 ， 其 反映 了 XS 域 或 者 FS 域 处 于 脏 (Dirty) 状 
态 。 其 逻辑 关系 表达 式 为 : SD=((FS==11) OR (XS==11))。 

之 所 以 设置 此 只 读 的 SD 域 ， 是 为 了 方便 软件 快速 的 查询 XS 域 或 者 FS Ie AT E 
(Dirty) 状态 ， 从 而 在 上 下 文 切换 时 可 以 快速 判断 是 否 需要 对 浮 点 单元 或 者 扩展 指令 单元 进 
行 上 下 文 的 保存 。 由 于 此 内 容 超出 本 书 的 介绍 范围 (只 支持 机 器 模式 不 支持 操作 系统 )， 因 
此 在 此 不 做 过 多 介绍 ， 感 兴趣 的 读者 请 参见 RISC-V“ 特 权 架 构 文档 ”原文 。 


B2.10 mtvec 


mtvec 寄存 器 用 于 配置 异常 的 入 口 地 址 。 

为 了 理解 此 寄存 器 ， 请 先 参见 第 13 章 系 统 地 了 解 中 断 和 异常 的 相关 信息 。 

在 处 理 器 的 程序 执行 过 程 中 , 一 旦 遇 到 异常 发 生 ， 则 终止 当前 的 程序 流 ， 处 理 嚣 被 强行 
跳 转 到 一 个 新 的 PC 地 址 , 该 过 程 在 RISC-V 的 架构 中 定义 为 陷阱 (trap), 字面 的 含义 为 “ 跳 
入 陷阱 ”更 加 准确 的 含义 为 “进入 异常 ”。RISC-V 处 理 器 进入 异常 后 跳 入 的 PC 地 址 即 由 
mtvec 寄存 器 指定 。 

AR RISC-V 架构 定义 的 mtvec 寄存 器 详细 格式 ， 请 参见 第 13.2.1 节 。 


B2.11 mepc 


mepe 寄存 器 用 于 保存 进入 异常 之 前 指令 的 PC 值 ， 作 为 异常 的 返回 地 址 。 

为 了 理解 此 寄存 器 ， 请 先 参见 第 13 章 ， 系 统 地 了 解 中 断 和 异常 的 相关 信息 。 

RISC-V 架构 规定 ， 处 理 器 进入 异常 时 ，mepc 寄存 器 被 同时 更 新 以 反映 当前 遇 到 异常 的 
指令 的 PC 值 。 

值得 注意 的 是 ， 虽 然 mepc 寄存 器 会 在 异常 发 生 时 自动 被 硬件 更 新 ， 但 是 mepe 寄存 器 
本 身 也 是 一 个 可 读 可 写 的 寄存 器 ， 因 此 软件 也 可 以 直接 写 该 寄存 器 ， 以 修改 它 的 值 。 

注意 : RISC-V 在 中 断 和 异常 时 的 返回 地 址 定义 (更 新 mepe 的 值 ) 有 如 下 细微 差别 。 

。 出 现 中 断 时 , 中 断 返 回 地 址 mepe 被 指向 下 一 条 尚未 执行 的 指令 ，, 因为 中 断 时 的 指令 
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被 正确 执行 。 
。 HMF W, mepe 则 指 回 当 前 指令 ， 因 为 当前 指令 触发 了 有 弄 向 。 
如 第 13.1.3 节 中 所 述 , 同步 异常 能 够 精确 定位 到 造成 异常 发 生 的 指令 , 而 对 于 异步 异常 ， 
则 无 法 精确 定位 ， 这 取决 于 处 理 器 的 具体 硬件 实现 。 
如 果 异 常 由 ecall 或 ebreak 产生 , 直接 跳 回 返回 地 址 则 会 造成 死 循环 (因为 重新 执行 ecall 
导致 重新 进入 异常 )。 正确 的 做 法 是 在 异常 处 理 中 软件 改变 mepe 指 同 下 一 条 指令 ， 由 于 现在 
ecall/ebreak 都 是 4 字 节 指令 ， 因 此 简单 设 定 mepc=mepc+4 即 可 。 


B2.12 mcause 


mcause 寄存 器 ， 用 于 保存 进入 异常 之 前 的 出 错 原 因 ， 以 便 对 异常 原因 进行 诊断 和 调试 。 

为 了 理解 此 寄存 器 ， 请 先 参见 第 13 章 系 统 地 了 解 中 断 和 异常 的 相关 信息 。 

RISC-V 架构 规定 ， 处 理 器 进入 异常 时 ，mcause 寄存 器 被 同时 更 新 以 反映 当前 遇 到 异常 
的 原因 :mcause 寄存 器 的 最 高 1 位 为 中 断 (Interrupt) 域 , 低 31 位 为 异常 编号 (Exception Code? 
域 ， 此 两 个 域 的 组 合 可 以 用 于 指示 12 种 定义 的 中 断 类 型 和 16 种 定义 的 异常 类 型 。 

有 关 RISC-V 架构 定义 的 mcause 寄存 器 详细 格式 ,以 及 蜂鸟 E200 文 持 的 中 断 和 异常 原 
因 类 型 ， 请 参见 第 13.2.1 节 。 


B2.13 mtval (mbadaddr) 


mtval (XZ mbadaddr) 寄存 器 ， 用 于 保存 进入 异 单 之 前 的 出 错 指 令 的 编码 人 或 者 存储 
名 访问 的 地 址 值 ， 以 便 对 异常 原因 进行 诊断 和 调试 。 

为 了 理解 此 寄存 器 ， 请 先 参见 第 13 章 ， 系 统 地 了 解 中 断 和 异常 的 相关 信息 。 

RISC-V 架构 规定 ， 处 理 器 进入 异常 时 ，mtval 寄存 器 被 同时 更 新 以 反映 当前 遇 到 异常 的 
Fi Rio 

。 如 果 是 与 存储 器 访问 造成 的 异常 ， 壁 如 硬件 断 点 、 取 指令 和 存储 器 读 写 造成 的 异常 ， 

则 将 存储 器 访问 的 地 址 值 更 新 到 mtval 寄存 器 中 。 
e 如 果 是 非法 指令 造成 的 异常 ， 则 将 错误 的 指令 编码 更 新 到 mtval 寄存 器 中 。 


B2.14 mie 


mie 寄存 器 用 于 控制 不 同 中 断 类 型 的 局 部 屏蔽 。 之 所 以 称 为 局 部 屏蔽 ， 是 因为 相对 而 言 
mstatus 寄存 器 中 的 MIE 域 提供 了 全 局 中 断 使 能 ， 请 参见 附录 B2.9 节 对 mstatus 寄存 器 了 解 
更 多 信息 。 

为 了 理解 此 寄存 器 ， 请 先 参见 第 13 章 ， 系 统 地 了 解 中 断 和 异常 的 相关 信息 。 
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RISC-V 架构 对 于 mie 寄存 器 的 规定 如 下 。 

e mie 寄存 器 的 每 一 个 域 用 于 控制 每 个 单独 的 中 断 使 能 ，MEIE/MTIE/MSIE 域 分 别 控 
制 机 器 模式 下 的 外 部 中 断 CExternal Interrupt)、 计 时 器 中 断 (Timer Interrupt) 和 软 
件 中 断 〈Software Interrupt) KEER. RACERS S kS E2000 只 实现 了 机 器 
模式 ， 则 监督 模式 (Supervisor) 和 用 户 模 式 (User Mode) 对 应 的 中 断 使 能 位 (SEIE、 
UEIE、STIE、UTIE、SSIE 以 及 USIE) 无 任何 意义 。 

。 有 关 RISC-V 架构 定义 的 mie 寄存 器 详细 格式 和 功能 ， 以 及 蜂鸟 E200 支持 的 中 断 类 
型 ， 请 参见 第 13.3.2 节 。 


B2.15 mip 


mip 寄存 器 用 于 查询 中 断 的 等 待 (Pending) 状态 。 

为 了 理解 此 寄存 器 ， 请 先 参见 第 13 章 。 系 统 了 解 中 断 和 异常 的 相关 信息 。 

RISC-V 架构 对 于 mip 寄存 器 的 规定 如 下 。 

e mip 寄存 器 的 中 的 每 一 个 域 用 于 反映 每 个 单独 的 中 断 等 待 状态 ，MEIP/MTIP/MSIP 
域 分 别 反 映 机 器 模式 下 的 外 部 中 断 、 计 时 器 中 断 和 软件 中 断 的 等 待 状态 。 如 果 处 理 
器 (譬如 蜂鸟 E200〉 只 实现 了 机 器 模式 ， 则 监督 模式 和 用 户 模式 对 应 的 中 断 等 竺 状 
态 位 (SEIP、UEIP、STIP、UTIP、SSIP 以 及 USIP) 无 任何 意义 。 

。 "HX RISC-V 架构 定义 的 mip 寄存 器 详细 格式 和 功能 ， 以 及 蜂 乌 E200 文 持 的 中 断 类 
型 ， 请 参见 第 13.3.3 1. 


B2.16 mscratch 


mscratch 寄存 器 用 于 机 器 模式 下 的 程序 临时 保存 茶 些 数据 。mscratch Sr ffs HJ EA SETE— 
种 快速 的 保存 和 恢复 机 制 。 辟 如， 在 进入 机 器 模式 的 异常 处 理 程序 后 ， 将 应 用 程序 的 茶 个 通 
用 寄存 器 的 值 临 时 存 入 mscratch 寄存 器 中 ， 然 后 在 退出 异常 处 理 程序 之 前 ， 将 mscratch 寄 
存 器 中 的 值 读 出 恢复 至 通用 寄存 器 。 


B2.17 mcycle 和 mcycleh 


RISC-V 架构 定义 了 一 个 64 位 宽 的 时 钟 周 期 计数 器 , 用 于 反映 处 理 器 执行 了 多 少 个 时 钟 
周期 。 只 要 处 理 器 处 于 执行 状态 ， 此 计数 器 便 会 不 断 自 增 计 数 ， 其 自 增 的 时 钟 频 率 由 处 理 器 
的 硬件 实现 自 定义 。 

mcycle 寄存 器 反映 了 该 计数 器 低 32 位 的 值 ，mcycleh 寄存 器 反映 了 该 计数 器 高 32 位 的 值 。 

mcycle 和 mcycleh 寄存 器 可 以 用 于 衡量 处 理 器 的 性 能 ， 且 具备 可 读 可 写 属 性 ,因此 软件 
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可 以 通过 CSR 指令 改写 mcycle 和 mcycleh 寄存 器 中 的 值 。 

考虑 到 此 计数 器 计数 会 消耗 某 些 动态 功 耗 ， 在 蜂鸟 E200 处 理 器 的 实现 中 ， 在 目 定 义 
mcounterstop 寄存 器 中 额外 增加 了 一 位 控制 域 。 软 件 可 以 配置 此 控制 域 将 mcycle 和 mcycleh 
对 应 的 计数 器 停止 计数 ， 从 而 在 不 需要 衡量 性 能 之 时 停止 计数 器 ， 以 达到 省 电 的 作用 。 请 参 
见 附录 B3.1 节 ， 了 人 解 更 多 mcounterstop 寄存 器 信息 。 


B2.18 minstret 和 minstreth 


RISC-V 架构 定义 了 一 个 64 位 宽 的 执行 指令 计数 器 , 用 于 反映 处 理 器 成 功 执 行 了 多 少 条 
指令 。 只 要 处 理 器 每 成 功 执行 一 条 指令 ， 此 计数 器 便 会 目 增 计数 。 

minstret 寄存 器 反映 了 该 计数 器 低 32 位 的 值 ，minstreth 寄存 器 反映 了 该 计数 器 高 32 位 
的 值 。 

minstret 和 minstreth 寄存 器 可 以 用 于 衡量 处 理 器 的 性 能 ， 且 具备 可 读 可 写 属 性 ， 因 此 软 
件 可 以 通过 CSR 指令 改写 minstret 和 minstreth 寄存 器 中 的 值 。 

考虑 到 此 计数 器 计数 会 消耗 某 些 动态 功 耗 ， 在 蜂鸟 E200 处 理 器 的 实现 中 ， 在 目 定 义 
mcounterstop 寄存 器 中 额外 增加 了 一 位 控制 域 .软件 可 以 配置 此 控制 域 将 minstret 和 minstreth 
对 应 的 计数 器 停止 计数 ， 从 而 在 不 需要 衡量 性 能 之 时 停止 计数 器 ， 以 达到 省 电 的 作用 。 请 参 
见 附录 B3.1 节 ， 了 解 更 多 mcounterstop 寄存 器 信息 。 


B2.19 mtime, mtimecmp 和 msip 


为 了 理解 这 3 个 寄存 器 ， 请 先 参见 第 13 章 ， 系 统 地 了 解 中 断 和 异常 的 相关 信息 。 

RISC-V 架构 定义 了 一 个 64 位 的 计时 器 , 该 计时 器 的 值 实时 反映 在 mtime 寄存 器 中 ， 且 
该 计时 器 可 以 通过 mtimeemp 寄存 器 配置 其 比较 值 ， 从 而 产生 中 断 。 注 意 : RISC-V 架构 没 
有 将 mtime 和 mtimecmp 寄存 器 定义 为 CSR 寄存 器 ， 而 是 定义 为 存储 器 地 址 映射 “Memory 
Address Mapped) 的 系统 寄存 器 ， 具 体 的 存储 器 映射 地 址 RISC-V 架构 并 没有 规定 ， 而 是 交 
由 SoC 系统 集成 者 实现 。 

RISC-V 架构 定义 了 一 种 软件 中 断 ， 可 以 通过 软件 写 1 至 msip 寄存 器 来 触发 。 有 关 软 件 
中 断 的 信息 请 参见 第 13.3.1 节 。 注 意 : 此 处 的 msip 寄存 器 和 mip 寄存 器 中 的 MSIP 域 命名 
不 可 混 消 ， 且 RISC-V 架构 并 没有 定义 msip 寄存 器 为 CSR 寄存 器 ， 而 是 定义 为 存储 器 地 址 
映射 的 系统 寄存 器 ， RISC-V 架构 并 没有 规定 具体 的 存储 器 映射 地 址 ， 而 是 交 由 SoC 系统 
集成 者 实现 。 

在 蜂鸟 E200 处 理 器 的 实现 中 ，mtime/mtimecmp/msip 均 由 CLINT 模块 实现 ， 有 关 蜂 鸟 E200 
的 CLINT 实现 要 点 以 及 mtime/mtimecmp/msip 分 配 的 存储 器 地 址 区 间 ， 请 参见 第 13.5.5 节 。 
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考虑 到 计时 器 计数 会 消耗 某 些 动 态 功 耗 ， 在 蜂鸟 E200 处 理 器 的 实现 中 ， 在 自 定义 
mcounterstop 寄存 器 中 额外 增加 了 一 位 控制 域 。 软 件 可 以 配置 此 控制 域 将 mtime 对 应 的 计时 
髓 停止 计数 ， 从 而 在 不 需要 之 时 停止 计时 器 ， 达 到 省 电 的 作用 。 请 参见 附录 B3.1 节 了 解 更 
多 mcounterstop 寄存 器 信息 。 


B3 CAZES 





本 节 介 绍 蜂 乌 E200 自 定义 的 CSR 寄存 器 。 


mcounterstop 


考虑 到 mtime, meycle, meycleh, minstret 和 minstreth 计数 器 计数 会 消耗 某 些 动态 功 耗 ， 
因此 在 蜂 乌 E200 处 理 器 的 实现 中 ， 自 定义 此 mcounterstop 寄存 器 ， 用 于 控制 不 同 计 数 器 的 


运行 和 停止。 
mcounterstop 寄存 器 中 各 控制 位 域 如 表 B-2 所 示 。 
表 B-2 mcounterstop 寡 存 器 各 控制 位 


域 描 5 
此 位 控制 mcycle 和 meycleh 对 应 的 计数 器 : 

。 如 果 此 位 为 1， 则 将 计数 器 停止 计数 

e 如 果 此 位 为 0， 则 计数 器 正常 工作 

此 位 上 电 复 位 默认 值 为 0 

此 位 控制 mtime 对 应 的 计数 器 : 

e 如 果 此 位 为 1， 则 将 计数 器 停止 计数 

。 如 果 此 位 为 0， 则 计数 器 正常 工作 

此 位 上 电 复位 默认 值 为 0 

此 位 控制 minstret 和 minstreth 对 应 的 计数 器 ; 
。 如 果 此 位 为 1， 则 将 计数 器 停止 计数 

。 如果 此 位 为 0， 则 计数 器 正常 工作 

此 位 上 电 复 位 默认 值 为 0 

Reserved 3 一 31 其 他 未 使 用 的 域 为 常数 0 


CYCLE 


INSTRET 


附录 C RISC-V 架构 的 PLIC 介绍 


附录 对 于 PLIC 的 介绍 翻译 目 RISC-V 的 “特权 架构 文档 ”， 本 书 对 相关 内 容 进行 了 重新 
组 织 ， 以 求 通俗 易 懂 。 

注意 : 附录 仅 介绍 平台 级 别 中 断 控 制 器 (Platform Level Interrupt Controller, PLIC) 部 
分 ， 而 PLIC 仅 是 RISC-V 整个 中 断 机 制 中 的 一 个 子 环 节 。 为 了 更 好 地 理解 附录 ， 请 先 参见 
第 13 章 ， 系 统 地 了 解 中 断 和 异常 的 相关 信息 。 


C1 E 


如 第 13.3.1 "Er, RISC-V 架构 定义 了 一 个 PLIC 用 于 对 多 个 外 部 中 断 源 按 优先 级 进 
行 仲裁 和 分 发 。PLIC 的 逻辑 结构 如 图 C-1 所 示 ， 相 关 概 念 如 下 。 


Interrupt 1 Signals imus 2 Signals 


PLIC Gateways 


a J 


aree a TIT 


: To 

- | Max Pri. | >? EP}: interrupt | Target 

:| Notification > 0 
4 


: To 
E | Max Pri. | EIP 1 interrupt | Target 
'| Notification 1 
---| MaxiD | => Interrupt ID 
T 


"rtc ET 





PLIC Core 


K|C-1 PLIC 逻辑 结构 示意 图 


e PLIC 中 断 目标 
。 PLIC "Fr EH bs Bu £8 
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PLIC 中 断 源 

PLIC 中 断 源 的 闸口 

PLIC 中 断 源 的 编号 

PLIC "Fri E) 5c 2 

PLIC 中 断 源 的 使 能 

PLIC 中 断 通 知 机 制 

PLIC 中 断 啊 应 机 制 

PLIC 中 断 完 成 机 制 

。 PLIC 中 断 完 整流 程 

下 文 将 分 别 予 以 详 述 。 

注意 : 

e 图 C-11X 79 PLIC 的 逻辑 示意 图 , 并 非 其 真正 的 硬件 结构 图 。 处理 器 设计 人 员 可 以 采 
取 更 高 效 的 硬件 设计 结构 予以 实现 。 

e 图 C-1 中 有 两 个 中 断 目标 (Target 0 和 Target 1), fH PLIC 理论 上 可 以 支持 一 个 或 者 
任意 多 个 中 断 目 标 。 下 一 节 将 对 中 断 目标 予以 详 述 。 

。 图 C-1 中 的 IP (Interrupt Pending) 表示 中 断 源 的 等 待 标志 寄存 器 ; Priority 表示 中 断 

源 的 优先 级 寄存 器 ; 中 断 使 能 CInterrupt Enable, IE) 为 中 断 源 对 应 于 中 断 目标 的 使 

能 寄存 器 ; Threshold 为 中 断 目 标的 优先 级 阀 值 寡人 存 器 ，EIP 为 发 往 中 断 目标 的 中 断 

信号 线 。 附 录 C2 和 C3 将 对 各 概念 及 寄存 器 予以 详 述 。 


C2 LIII I 


如 上 一 节 所 述 ，PLIC 理论 上 可 以 支持 一 个 或 者 任意 多 个 中 断 目 标 CInterrupt Target), 1 
件 设 计 人 员 可 以 选择 具体 的 中 断 目 标 个 数 上 限 。 

RISC-V 架构 规定 ，PLIC 的 中 断 目标 通常 是 RISC-V 架构 的 一 个 特定 模式 下 的 Hart， 有 
Hart 的 概念 请 参见 附录 A9。 但 是 ， 理 论 上 PLIC 不 仅 可 以 用 于 向 RISC-V 的 Hart 发 送 中 
断 ， 也 可 以 向 系统 的 其 他 组 件 发 送 中 断 〈( 辟 如 DMA、DSP 等 )。 

通常 情况 下 ，RISC-V 架构 的 Hart 需要 进入 机 器 模式 《Machine Mode) 啊 应 中 断 ， 但 是 
RISC-V 架构 也 运行 低级 别 的 工作 模式 〈 璧 如 用 户 模 式 ) 直接 啊 应 中 断 ， 此 特性 由 CSR 寄存 
器 mideleg 控制 。 因 此 对 于 一 个 Hart 而 言 ， 其 机 器 模式 可 以 作为 中 断 目 标 ， 还 可 以 有 其 他 模 
式 作为 中 断 目标 。 

注意 : mideleg 寄存 器 只 有 在 支持 多 种 工作 模式 的 RISC-V 处 理 器 中 才 使 用 。 由 于 附录 
着 重 介 绍 只 支持 机 器 模式 (Machine Mode Only) 的 架构 ， 因 此 对 mideleg 寄存 器 不 做 介绍 ， 
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感 兴趣 的 读者 请 参见 RISC-V“ 特 权 架 构 文 档 ” 原 文 。 
如 图 C-2 所 示 ， 该 PLIC 服务 于 3 个 RISC-V Hart. Hart 0 
有 MU 两 种 模式 ，Hart 1 有 M/S/U 这 3 种 模式 ，Hart 2 有 M/S/U 
这 3 种 模式 ， 因 此 该 PLIC 总 共有 编号 0—7 共 8 个 中 断 目 标 。 
注意 : 如 附录 A9 所 述 ， 由 于 蜂鸟 E200 是 单 核 处 理 器 ， 
且 没 有 实现 任何 硬件 超 线 程 的 技术 ， 因 此 一 个 蜂 乌 E200 处 理 
器 核 即 为 一 个 Hart， 且 蜂鸟 E200 处 理 器 核 只 支持 机 器 模式 。 
蜂鸟 E200 系统 中 的 PLIC 仅 只 有 一 个 中 断 目标 ，Hart 0 的 MMode。 


PLIC 中 断 目标 之 阅 什 


如 图 C-1 所 示 ，PLIC 的 每 个 中 断 目标 均 可 以 设置 特定 的 优先 级 阔 值 CThreshold)， 只 有 
中 断 源 的 优先 级 高 于 此 靖 值 ， 中 断 才 能 够 被 发 送 给 中 断 目 标 。 有 关中 断 源 的 优先 级 概念 将 在 
附录 C3.3 节 予 以 详 述 。 

中 断 目标 的 优先 级 立 值 寄存 器 应 该 是 存储 器 地 址 映射 “Memory Address Mapped) 的 可 
读 可 写 寄存 器 ， 从 而 软件 可 以 通过 编程 配置 不 同 的 阔 值 来 屏蔽 比 国人 和 值 低 优先 级 的 中 断 源 。 


O BEA Uc 


如 图 C-1Brzs, PLIC 理论 上 可 以 支持 任意 多 个 (具体 硬件 实现 可 以 选择 其 支持 的 上 限 ) 
中 断 源 (Interrupt Source )。 每 个 中 断 源 可 以 是 不 同 的 触发 类 型 ， 壁 如 电 平 触发 
(Level-triggered) 或 者 边沿 触及 CEdge-triggered) 等 。 

PLIC 为 每 个 中 断 源 分 配 了 如 下 功能 组 件 和 参数 。 

e O (Gateway) 和 IP 

。 编号 〈ID ) 

。 RER (Priority) 

e 使 能 (Enable) 


C3.1 PLIC 中 断 源 之 闸口 (Gateway) fü IP 


如 图 C-1 所 示 ，PLIC 为 每 个 中 断 源 分 配 了 一 个 闸口 (Gateway)， 每 个 闸口 都 有 对 应 的 
中 断 等 待 寄存 器 ， 其 功能 如 下 。 
。 闸口 将 不 同 触发 类 型 的 外 部 中 断 转 换 成 统一 的 内 部 中 断 请 求 。 





C-2 PLIC 中 断 目 标示 例 
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。 对 于 同一 个 中 断 源 而 言 ， 闸 口 保证 一 次 只 发 送 一 个 中 断 请 求 〈Interrupt Requst)。 如 
C-1 所 示 ， 中 断 请 求 经 过 闸口 发 送 后 ， 硬 件 将 会 目 动 将 对 应 的 卫 寄存 器 置 高 。 

。 闸口 发 送 一 个 中 断 请 求 后 则 启动 屏蔽 ， 如 果 此 中 断 没 有 被 处 理 完成 ， 则 后 续 的 中 断 
将 会 被 闻 口 屏蔽 住 。 有 关中 断 完 成 机 制 ， 请 参见 附录 C4.3 节 中 的 详细 介绍 。 


C3.2 PLIC 中 断 源 之 编号 (1D) 


PLIC 为 每 个 中 断 源 分 配 了 一 个 独一无二 的 编号 (ID)。ID 编号 0 被 预 留 ,作为 表示 “不 
存在 的 中 断 ” 因此 有 效 的 中 断 ID 从 1 开始 。 

壁 如 ， 假 设 某 PLIC 的 硬件 实现 支持 1024 ^* ID, JW ID 73g 0—1023. XB, RT 03x 
预 留 表示 “不 存在 的 中 断 ” 之 外 ， 编 号 1 一 1023 对 应 的 中 断 源 接口 信号 线 可 以 用 于 连接 有 效 
的 外 部 中 断 源 。 


C3.3 PLIC 中 断 源 之 优先 级 (Priority) 


如 图 C-1 所 示 ，PLIC 的 每 个 中 断 源 均 可 以 设置 特定 的 优先 级 ， 其 要 点 如 下 。 

。 每 个 中 断 源 的 优先 级 寄存 器 应 该 是 存储 器 地 址 映射 的 可 读 可 写 寄存 器 ， 从 而 使 得 软 
件 可 以 对 其 编程 配置 不 同 的 优先 级 。 

e PLIC 架构 理论 上 可 以 文 持 任意 多 个 优先 级 ， 硬 件 实现 时 可 以 选择 具体 的 优先 级 个 
数 。 譬 如， 假设 硬件 实现 时 选择 优先 级 寄存 器 的 有 效 位 为 3 位 ， 则 其 可 以 支持 的 优 
先 级 个 数 为 0 一 7 这 8 个 优先 级 。 

。 优先 级 的 数字 越 大 ， 则 表示 优先 级 越 高 。 

。 优先 级 0 意味 着 “不 可 能 中 断 ”， 相 当 于 将 此 中 断 源 屏 珊 。 

这 是 因为 PLIC 的 每 个 中 断 目标 均 可 以 设置 特定 的 优先 级 闵 值 ， 只 有 中 断 源 的 优先 
级 高 于 此 冰 值 ， 中 断 才 能 够 被 发 送 给 中 断 目 标 〈 见 附录 C2.1 节 )。 由 于 国 值 最 小 也 
为 0， 因 此 中 断 源 的 优先 级 为 0 则 不 可 能 高 于 任何 设 定 的 国 值 ， 即 意味 着 “不 可 能 
中 断 ”。 


C3.4 PLIC 中 断 源 之 中 断 使 能 (Enable ) 


如 图 C-1 所 示 ，PLIC 为 每 个 中 断 目标 的 每 个 中 断 源 均 分 配 了 一 个 中 断 使 能 寄存 器 ， 其 
SUP. 

IE 寄存 器 应 该 是 存储 器 地 址 映射 的 可 读 可 写 寄存 器 ， 从 而 使 得 软件 可 以 对 其 编程 。 

。 如 果 IE 寄存 器 被 编程 配置 为 0， 则 意味 着 此 中 断 源 对 应 此 中 断 目标 被 屏 贡 。 

。 如 果 正 寄存 器 被 编程 配置 为 1， 则 意味 着 此 中 断 源 对 应 此 中 断 目标 被 打开 。 


388 | KEAS RISC-V 架构 的 PLIC 介绍 


C4 OITIS 


C4.1 PLIC 中 断 通知 机 制 (Notification ) 


如 图 C-1 所 示 ， 对 于 每 个 中 断 目 标 而 言 ，PLIC 对 其 所 有 中 断 源 进行 仲裁 选择 的 原则 如 下 。 
。 对 于 每 个 中 断 目 标 来 说 ， 只 有 满足 下 列 所 有 条 件 的 中 断 源 才 能 参与 仲裁 。 
中 断 源 对 于 该 中 断 目标 的 使 能 (IE 寄存 器 ) 必须 为 1。 
中 断 源 的 优先 级 《优先 级 寄存 器 的 值 ) 必须 大 于 0。 
中 断 源 必 须 经 过 了 闸口 发 送 CP 寄存 器 的 值 为 1 )。 
。 从 所 有 参与 仲裁 的 中 断 源 中 选择 优先 级 最 高 的 中 断 源 ， 作 为 仲裁 结果 。 如 果 参 与 仲 
裁 的 多 个 中 断 源 具 有 相同 的 优先 级 ， 仲 裁 时 则 选择 ID 数目 最 小 的 中 断 源 。 
。 如 果 仲 裁 出 的 中 断 源 优先 级 高 于 中 断 目 标的 优先 级 闽 值 ， 则 产生 最 终 的 中 断 通知 
(Notification), BUA ER F mE. 
ARZ J, WRA nO H iR EREA, M iA A B H ERER AR E FA B] A 
断 线 。 若 中 断 目 标 是 一 个 RISC-V Hart 的 M Mode， 则 该 中 断 线 的 值 将 会 反映 在 其 CSR 寄存 
Ar mip 中 的 MEIP 域 。 有 关 mip 寄存 器 的 细节 ， 请 参见 附录 B2.15 节 。 


C4.2 PLIC 中 断 响应 机 制 〈《Claim ) 


对 于 每 个 中 断 目标 而 言 ， 如 果 收 到 了 中 断 通 知 ， 且 决定 对 该 中 断 进行 响应， 则 需要 癌 
PLIC 发 送 中 断 啊 应 〈Interrupt Claim) 消息 。PLIC 定义 的 中 断 啊 应 机 制 如 下 。 

。 PLIC 实现 一 个 存储 右 地 址 映射 的 可 读 寄存 器 ， 中断 目标 可 以 通过 对 此 寄存 器 进行 读 
操作 ， 达 到 中 断 啊 应 的 目的 。 作 为 反馈 (Claim Response)， 此 读 操 作 将 返回 一 个 ID, 
表示 当前 仲裁 出 的 中 断 源 对 应 的 中 断 人 DD。 中 断 目标 可 以 通过 此 ID 得 知 其 需要 响应 
的 具体 外 部 中 断 源 ， 如 果 返 回 的 中 断 ID 为 0， 则 表示 无 中 断 请 求 。 

。 PLIC 接收 到 中 断 啊 应 的 寄存 器 读 操作 ， 且 返回 了 中 断 ID 之 后 ， 硬 件 自 动 将 对 应 中 
BURK IP. 寄存 器 清 0。 
注意 : 此 中 断 源 的 卫 寄存 器 清 0 后 ， 其 他 中 断 源 仍 可 以 重新 进行 仲裁 ， 选 出 下 一 个 
最 高 优先 级 的 中 断 源 ， 因 此 PLIC 有 可 能 会 继续 辐 该 中 断 目标 发 送 新 的 中 断 通知 。 

。 中 断 目 标 可 以 将 该 中 断 目 标的 优先 级 阀 值 设 置 到 最 大 ， 即 屏蔽 掉 所 有 的 中 断 通知 。 
但 是 该 中 断 目 标 仍 然 可 以 对 PLIC 发 起 中 断 响应 的 寄存 器 读 操 作 ，PLIC 依然 会 返回 
当前 仲裁 出 的 中 断 源 对 应 的 中 断 ID。 
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C4.3 PLIC 中 断 完成 机 制 (Completion) 


对 于 中 断 目标 而 言 ， 如 果 彻 底 完 成 了 某 个 中 断 源 的 中 断 处 理 操 作 ， 则 需要 向 PLIC 发 送 
中 断 完成 《〈Interrupt Completion) 消息 。PLIC 定义 的 中 断 完 成 机 制 如 下 。 

。 PLIC 实现 一 个 存储 器 地 址 映射 的 可 写 寄存 器 ; 中 断 目 标 可 以 通过 对 此 寄存 器 进行 写 
操作 达到 中 断 完 成 的 目的 。 此 写 操作 需要 写 入 一 个 中 断 ID， 以 通知 PLIC 完成 了 此 
中 断 源 的 中 断 处 理 操 作 。 

。 PLIC 接收 到 中 断 完成 的 寄存 器 写 操作 后 《〈 写 入 中 断 ID )， 硬 件 自动 将 对 应 中 断 源 的 
闸口 解除 屏蔽 。 只 有 闸口 解除 屏蔽 之 后 ， 此 中 断 源 才能 经 过 闸口 发 起 下 一 次 中 断 请 
求 (才能 重新 将 IP 寄存 器 置 高 )。 


C4.4 PLIC 中 断 完整 流程 


综 上 所 述 ， 对 于 每 个 中 断 源 的 中 断 而 言 ， 如 图 
C-3 所 示 ， 其 完整 流程 总 结 如 下 。 

。 如 有 果 疗 口 没有 被 屏 珊 ， 则 中 断 源 经 过 闻 口 发 
起 中 断 请 求 〈Interrupt Request)。 闸 口 发 送 
一 个 中 断 请 求 后 : 硬件 自动 将 其 对 应 的 IP 
寄存 器 置 高 ; PLIC 硬件 将 对 应 中 断 源 的 闸口 
局 动 屏蔽 ， 后 续 的 中 断 将 会 被 曾 口 屏蔽 住 。 

e 按照 附录 C4.1 节 所 述 的 中 断 仲裁 机 制 ， 如 果 
经 过 PLIC 硬件 仲裁 后 选中 了 该 中 断 源 , B 
优先 级 高 于 中 断 目 标的 国 值 ，PLIC 则 向 中 断 
目标 发 起 中 断 通 知 CInterrupt Notification)» 

。 中 断 目 标 收 到 中 断 通 知 后 ， 如 果 决 定 响应 此 


Handler 
Running 





中 断 ， 则 使 用 软件 向 PLIC 发 起 中 断 响应 的 E S Bass ria 
读 操作 。 作 为 响应 反馈 ，PLIC 返回 该 中 断 源 的 中 断 ID。 同 时 ， 硬 件 自动 将 其 对 应 
HJ IP 寄存 器 清 零 。 


e。 中 断 目 标 收 到 中 断 ID 之 后 ， 可 以 通过 此 ID 得 知 其 需要 响应 的 具体 外 部 中 断 源 。 然 后 
进入 该 外 部 中 断 源 对 应 的 具体 中 断 服 务 程 序 (Interrupt Service Routine). 中 进行 处 理 。 

e 行 彻底 完成 了 中 断 处 理 之 后 , 中 断 目标 使 用 软件 同 PLIC 发 起 “中 断 完成 2 的 写 操作 ， 
写 入 要 完成 的 中 断 ID。 同 时 ，PLIC 硬件 将 对 应 中 断 源 的 闸口 解除 屏 项 ， 人 允许 其 能 
够 发 起 下 一 次 新 的 中 断 请 求 。 
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0 PLIC ol dL descubc Col a 


综 上 所 述 ，PLIC 需要 文 持 的 若干 种 存储 器 地 址 映射 的 寄存 器 如 下 。 
。 每 个 中 断 源 的 中 断 等 待 (Interrupt Pending, IP) 寄存 器 〈 只 读 )。 
。 每 个 中 断 源 的 优先 级 寄存 器 〈 可 读 可 写 )。 
。 每 个 中 断 目标 对 应 每 个 中 断 源 的 中 断 使 能 寄存 器 (可 读 可 写 )。 
。 每 个 中 断 目 标的 阀 值 寄存 器 〈 可 读 可 写 )。 
。 每 个 中 断 目标 的 中 断 响应 寄存 器 〈 可 读 )， a m 
。 每 个 中 断 目 标的 中 断 完 成 寄存 器 〈 可 写 )。 0x0C00.0FFC | source 1023 priority 
RISC-V 架构 文档 中 并 没有 对 上 述 寄 存 器 定义 明确 的 存 
储 器 地 址 ， 而 是 交 给 硬件 实现 者 自 定义 。 因 此 硬件 设计 人 员 
可 以 按照 所 处 SoC 系统 的 不 同情 况 分 配 具 体 的 存储 器 映射 
地 址 。 以 SiFive 公司 开源 的 Freedom E310 SoC 平台 为 例 ， 
其 PLIC 的 寄存 器 地 址 映射 表 如 图 C-4 所 示 。 有 关 蜂 鸟 E200 
配套 SoC 中 的 PLIC 寄存 器 地 址 映射 表 , 请 参见 第 13.5.6 节 。 
注意 : 
。 图 C-4 为 SiFive 公司 开源 的 Freedom E310 SoC 中 使 "i 
用 的 PLIC 寄存 器 地 址 映射 表 。 有 关 Freedom E310 —— |oxorrrroo4 | target 15871 clainvcomplete 
SoC 的 更 多 信息 ， 请 参见 第 18.1 节 。 图 C-4 Freedom E310 SoC 
此 PLIC 的 编程 模型 支持 最 多 1024 ^ ID, MIDA FAH PLIC 寄存 器 地 址 映射 表 
0 一 1023。 其 中 ， 除 了 0 被 预 留 表示 “不 存在 的 中 断 ” 之 外 ， 编 号 1 一 1023 对 应 的 中 
断 源 接口 信号 线 可 以 用 于 连接 有 效 的 外 部 中 断 源 。 
此 PLIC 的 编程 模型 支持 最 多 15872 个 中 断 目标 (Target 0— Target 15871). 
。 图 C-4 中 的 “source 1 priority" ~ “source 1023 priority” 对 应 每 个 中 断 源 的 优先 级 
寄存 器 〈 可 读 可 写 )。 虽 然 每 个 优先 级 寄存 器 对 应 于 一 个 32 位 的 地 址 区 间 (4 个 字 
节 )， 但 是 优先 级 寄存 器 的 有 效 位 可 以 只 有 几 位 (其 他 位 固定 为 0 值 )。 假 设 硬件 实 
现 优先 级 寄存 器 的 有 效 位 为 3 位 , 则 其 可 以 支持 的 优先 级 个 数 为 0 一 7 这 8 个 优先 级 。 
e C-4 中 的 “Start of pending array" ~ “End of pending array” 对 应 每 个 中 断 源 的 IP 
中 断 等 待 寄存 器 《只 读 )。 由 于 每 个 中 断 源 的 IP 仅 有 一 位 宽 ， 而 每 个 寄存 器 对 应 于 
一 个 32 位 的 地 址 区 间 (4 个 字 节 )， 因 此 每 个 寄存 器 可 以 包含 32 个 中 断 源 的 IP. 
按照 此 规则 ， 璧 如 “Start of pending array” 寄 存 器 包含 中 断 源 0 一 31 的 IP 寄存 器 值 ， 
其 他 依次 类 推 。 每 32 个 中 断 源 的 IP 被 组 织 在 一 个 寄存 器 中 ， 总 共 1024 个 中 断 源 则 











0x0C20.1000 | target 1 priority threshold 
0x0C20 1004 | target 1 claim/complete 


Ce 总 结 与 比较 391 


需要 32 个 寄存 器 ， 其 地 址 为 0x0C00 1000 一 0x0C00 107C 的 32 个 地 址 。 

。 图 C-4 中 的 “target 0 enables” 对 应 每 个 中 断 源 的 中 断 使 能 寄存 器 (可 读 可 写 )。 与 
IP 寄存 器 同 理 ， 由 于 每 个 中 断 源 的 正 仅 有 一 位 宽 ， 而 每 个 寄存 器 对 应 于 一 个 32 位 
的 地 址 区 间 (4 个 字 节 )， 因 此 每 个 寄存 器 可 以 包含 32 个 中 断 源 的 IE. 
按照 此 规则 ， 对 于 “target 0” 而 言 ， 每 32 个 中 断 源 的 正 被 组 织 在 一 个 寄存 器 中 ， 总 
共 1024 个 中 断 源 ， 则 需要 32 个 寄存 器 ， 其 地 址 为 0x0C00 2000—0x0CO00 207C 的 32 
个 地 址 区 间 。 

。 图 C-4 中 的 “target 1 enables" ~ "target 15871 enables” 与 上 述 “target 0 enables" 
同 理 ， 每 一 个 “target” 占 据 32 个 地 址 区 间 。 

。 图 C-4 中 的 “target 0 priority threshold” “target 15871 priority threshold” 对 应 每 个 中 
断 目标 的 国 值 寄存 器 《可 读 可 写 )。 
虽然 每 个 国 值 寄存 器 对 应 于 一 个 32 位 的 地 址 区 间 (4 个 字 节 )， 但 是 阔 值 寄存 器 的 
有 效 位 个 数 应 该 与 每 个 中 断 源 的 优先 级 寄存 器 有 效 位 个 数 相 同 。 

b C-4 中 的 “target 0 claim/complete" ~ “target 15871 claim/complete” 对 应 每 个 中 
断 目 标的 “中 断 啊 应 ”寄存 占 和 “中 断 完成 ”寄存 器 。 

如 附录 C4.2 节 和 C4.3 节 中 所 述 ， 对 于 每 个 中 断 目标 而 言 ， 由 于 “中 断 响应 ”寄存 
锅 为 可 读 ,“ 中 断 完成 ”寄存 器 为 可 写 ， 因 此 将 其 合并 作为 一 个 寄存 器 共享 同一 个 地 
址 ， 成 为 一 个 可 读 可 写 的 寄存 器 。 


C6 ESBSI 


对 ARM 的 Cortex-M 或 Cortex-A 系列 比较 熟悉 的 读者 , 想必 会 了 解 Cortex-M 系列 定义 
HRERS FH hA (Nested Vector Interrupt Controller; NVIC) 和 Cortex-A 系列 定义 的 
通用 中 断 控制 器 (General Interrupt Controller，GIC)。 这 两 种 中 断 控 制 器 都 非常 强大 ， 但 是 
功能 也 相对 非常 复杂 。 

相 比 而 言 ， RISC-V 架构 定义 的 PLIC 则 非常 简单 ， 这 反映 了 RISC-V 架构 力图 简化 硬件 
的 设计 哲学 。 此 外 ，RISC-V 架构 也 允许 处 理 器 设计 者 定义 其 自 有 的 中 断 控制 器 ， 因 此 可 以 
从 很 多 开源 或 商用 的 RISC-V 处 理 器 IP. 中 看 到 其 他 非 标准 的 中 断 控制 器 身影 , 本 书 在 此 不 一 
一 列举 。 








附录 将 对 存储 器 模型 (Memory Model) 的 相关 背景 知识 进行 简介 。 请 注意 ， 由 于 存储 
器 模型 是 计算 机 体系 结构 中 非常 星 涩 的 一 个 概念 ， 本 书 作为 一 本 通俗 读本 ， 重 在 力图 做 到 通 
俗 易 懂 。 因 此 ， 对 于 存储 器 模型 的 介绍 难免 有 失 之 学 术 精 准 之 处 ， 关 于 其 更 为 严谨 的 学 术 定 
义 读 者 可 以 目 行 查阅 其 他 资料 进行 了 解 。 


辆 为 何 要 有 存储 器 模型 的 概念 


本 节 先 介绍 为 何 要 有 存储 器 模型 (Memory Model) 这 个 概念 ? 即 ， 存 储 器 模型 要 解决 
什么 问题 ? 

在 最 早期 的 处 理 器 设计 时 代 ， 处 理 器 都 是 单 核 。 只 有 一 个 处 理 器 单 核 执 行 软件 程序 时 ， 
在 单 核 中 处 理 对 于 存储 器 读 写 指令 的 执行 很 好 理解 ,也 就 是 说 ， 处 理 器 对 于 存储 器 读 写 操作 
的 结果 严格 和 程序 顺序 (Program-Order) 定义 的 结果 一 致 。 程 序 顺 序 定 义 的 结果 ， 就 是 指 处 
理 器 严格 按照 顺序 逐条 地 执行 其 汇编 指令 的 结果 。 

理论 上 来 讲 , 对 于 存储 器 访问 地 址 有 相关 性 的 指令 (譬如 前 一 条 指令 写 某 个 存储 器 地 址 ， 
之 后 另 一 条 指令 读 该 存储 器 地 址 )， 那 么 它们 的 执行 顺序 一 定 不 能 被 颠倒 ， 人 否则 会 造成 结果 
错误 。 而 对 于 存储 器 访问 地 址 没有 相关 性 的 指令 〈 璧 如 前 一 条 指令 写 某 个 存储 器 地 址 ， 之 后 
男 一 条 指令 读 男 外 一 个 不 同 的 存储 占 地 址 )， 那 么 它们 的 执行 顺序 可 以 被 匡 倒 ， 不 会 影 啊 最 
终 的 执行 结果 ， 不 会 造成 结果 错误 。 

基于 上 述 的 原理 , 一 方面 编译 器 可 以 对 程序 生成 的 汇编 指令 流 中 的 指令 顺序 进行 适当 改 
变 ， 从 而 在 某 些 情况 下 优化 性 能 ( 璧 如 将 某 些 有 数据 相关 性 的 指令 中 间 插 入 后 序 没有 数据 相 
关 性 的 指令 ); 男 一 方面 ,处理 器 核 的 硬件 在 执行 程序 时 也 可 以 动态 地 调整 指令 的 执行 顺序 ， 
从 而 提高 处 理 器 的 执行 性 能 。 

但 是 ， 随 着 技术 的 进步 和 发 展 ， 处 理 器 设计 进入 多 核 时 代 ， 情 况 变 得 微妙 起 来 。 假 设 不 
同 的 处 理 嚣 核 需 要 同时 访问 共享 的 存储 器 区 间 ， 对 共享 的 数据 区 间 进 行 读 写 。 由 于 不 同 的 处 
理 器 核 在 执行 程序 时 存在 着 很 多 种 随机 性 和 不 确定 性 , 因此 它们 访问 到 共享 存储 器 区 间 的 先 
后 顺序 也 存在 着 随机 性 和 不 确定 性 ， 从 而 造成 多 核 程序 的 执行 结果 不 可 确 知 。 这 种 不 可 确 知 
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性 束 会 给 软件 开发 造成 困扰 ， 对 运行 多 核 程序 的 系统 造成 不 稳定 性 。 

在 第 1.1.1 节 中 介绍 过 ， 指 令 集 架 构 (ISA) 是 衔接 底层 硬件 和 高 层 软件 之 间 的 一 个 抽象 
层 ， 该 抽象 层 定 义 了 任何 软件 程序 员 需 要 了 解 的 硬件 信息 。 为 了 能 够 给 上 层 软件 明确 地 规定 
清楚 多 核 程 序 访 问 共享 数据 的 结果 ， 在 指令 集 架构 中 便 引 入 了 存储 器 模型 的 概念 。 


D2 ESFEEEEETRERSZT 


存储 器 模型 (Memory Model)， 又 称 存储 器 一 致 性 模型 (Memory Consistency Model), 
用 于 定义 系统 中 对 存储 器 访问 需要 遵守 的 规则 。 只 要 软件 和 硬件 都 明确 遵循 存储 器 模型 定义 
的 规则 ， 就 可 以 保证 多 核 程 序 也 能 够 运行 得 到 确切 的 结果 。 

存储 器 模型 往往 是 现代 ISA 很 重要 的 一 部 分 ， 因此 使 用 高 级 语言 的 程序 员 、 设计 编译 器 
的 软件 工程 师 、 处 理 器 硬件 设计 人 员 都 需要 了 解 其 所 使 用 ISA 的 存储 器 模型 。 

下 面 以 最 有 代表 性 的 3 种 存储 器 模型 一 按 序 一致 性 模型 (Sequential Consistency Model), 
松散 一 致 性 模型 (Relaxed Consistency Model) 和 释放 一 致 性 模型 (Release Consistency Model? 
为 例 加 以 介绍 以 利于 读者 理解 。 


D2.1 按 序 一 致 性 模型 


按 序 一 致 性 模型 (Sequential Consistency Model)， 顾 名 思 义 就 是 “严格 按 序 ” 模 型 。 如 
果 处 理 器 的 指令 集 架 构 符合 按 序 一 致 性 模型 , 那么 在 多 个 处 理 器 核 上 执行 的 程序 就 好 像 在 一 
个 单 核 处 理 器 上 顺序 执行 一 样 。 例 如 系统 有 两 个 处 理 器 核 ， 分 别 是 Core 0 和 Core 1. Core 0 
执行 了 A、B、C、D 共 4 条 存储 器 访问 指令 ，Core 1 执行 了 a、b、c、d 共 4 条 存储 器 访问 
指令 。 对 于 程序 员 而 言 , 按 序 一 致 性 模型 的 系统 上 执行 这 8 条 指令 的 效果 就 好 像 在 一 个 Core 
上 顺序 执行 了 A、a、B、b、C、c、D、d 的 指令 流 ， 或 者 是 A、B、a、b、C、c、D、d， 还 
可 以 是 A、B、C、D、a、b、c、d。 总 之 ， 只 要 同时 符合 Core 0 和 Core 1 的 程序 顺序 〈 即 
单独 从 Core 0 的 角度 看 ， 其 程序 顺序 必须 是 A 一 B 一 C 一 D， 单 独 从 Core 1 的 角度 看 ， 其 程 
序 顺 序 必 须 是 a 一 b 一 c 一 d) 的 任意 组 合 ， 都 是 合法 的 组 合 。 
综 上 ， 我 们 可 以 总 结 出 按 序 一 致 性 模型 的 两 条 规则 。 
。 各 个 处 理 器 核 按照 其 程序 顺序 来 执行 程序 ， 执 行 完 一 条 后 ， 启 动 执 行 下 一 条 指令 ， 
不 能 够 改变 存储 器 访问 指令 的 顺序 (即便 访问 的 是 不 同 的 存储 器 地 址 )。 
。 从 全 局 来 看 ， 每 一 个 存储 右 写 指令 的 操作 都 害 要 能 够 被 系统 中 的 所 有 处 理 器 核 同 时 观 
测 到 。 就 好 像 处 理 器 系统 (包括 所 有 的 处 理 器 核 ) 和 存储 系统 之 间 有 一 个 开关 ， 一 次 
只 会 连接 一 个 处 理 器 核 和 存储 系统 ， 因 此 对 存储 器 的 访问 都 是 原子 的 、 串 行 化 的 。 
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按 序 一 致 性 模型 是 最 简单 和 直观 的 存储 器 模型 ， 但 这 也 限制 了 CPU 硬件 和 编译 器 的 优 
化 ， 从 而 影响 了 整个 系统 的 性 能 ， 于 是 便 有 了 松散 一 致 性 模型 。 


D2.2 ”松散 一 致 性 模型 


松散 一 致 性 模型 (Relaxed Consistency Model)， 顾 名 思 义 就 是 “松散 ”模型 。 如 附录 
DI 中 所 述 ， 对 于 不 同 存储 器 地 址 的 访问 指令 ， 对 单 核 而 言 ， 理 论 上 是 可 以 改变 其 执行 顺序 
的 。 松 散 一 致 性 模型 允许 在 多 核 系 统 中 的 每 个 单 核 改 变 其 存储 器 访问 指令 (必须 访问 的 是 不 
同 的 地 址 ) 的 执行 顺序 。 

松散 一 致 性 模型 由 于 解除 了 束缚 ， 系 统 的 运行 性 能 更 加 好 。 但 多 核 程 序 这 样 无 所 束缚 地 
执行 的 结果 会 变 得 完全 不 可 确 知 ， 为 了 能 够 限定 处 理 器 的 执行 顺序 ， 便 引入 了 特殊 的 存储 器 
屏障 (Memory FENCE) 指令 。FENCE 指令 用 于 屏障 “数据 ”存储 器 访问 的 执行 顺序 ， 如 
果 在 程序 中 添加 了 一 条 FENCE 指令 ， 则 该 FENCE 指令 能 够 保证 “在 FENCE 之 前 所 有 指令 
进行 的 数据 访 存 结果 ”必须 比 “ 在 FENCE 之 后 所 有 指令 进行 的 数据 访 存 结果 ” 先 被 观测 到 。 
通俗 地 讲 , FENCE 指令 就 像 一 堵 屏 障 一 样 , TE FENCE 指令 之 前 的 所 有 数据 存储 器 访问 指令 ， 
必须 比 该 FENCE 指令 之 后 的 所 有 数据 存储 器 访问 指令 先 执行 。 

通过 将 松散 一 致 性 模型 和 存储 器 屏障 指令 相 结合 , 便 可 以 达到 性 能 和 功能 的 平衡 。 璧 如 ， 
在 不 关心 存储 器 访问 顺序 的 场景 下 可 以 达到 高 的 运行 性 能 , 而 在 某 些 关心 存储 器 访问 顺序 的 
场景 下 ， 软 件 程序 员 可 以 明确 使 用 存储 器 屏障 指令 来 约束 指令 的 执行 顺序 。 


D2.3 ”释放 一 致 性 模型 


“释放 一 致 性 模型 (Release Consistency Model )” 进一步 支持 获取 -释放 CAcquire-Release) 
机 制 ， 其 核心 要 点 如 下 。 

。 定义 一 种 获取 (Release) 指令 ， 它 仅 屏 障 其 之 前 的 所 有 存储 器 访问 操作 。 

e。 定义 一 种 释放 (Acquire) 指令， 它 仅 屏障 其 之 后 的 所 有 存储 器 访问 操作 。 

由 于 获取 和 释放 指令 仅 屏 障 一 个 方向 ， 因 此 相 比 FENCE 指令 更 加 松散 。 

附录 D3 将 结合 一 个 具体 的 应 用 实例 帮助 读者 进一步 理解 获取 -释放 机 制 和 上 述 不 同 模 
型 的 差异 。 


D2.4 存储 器 模型 总 结 


在 上 述 的 介绍 中 ， 为 了 通俗 易 懂 ， 我 们 以 处 理 器 核 为 单位 介绍 了 存储 器 模型 的 概念 ， 强 
调 了 存储 器 模型 在 多 核 系 统 中 的 重要 性 。 
但 是 ,现今 的 处 理 器 设计 技术 突飞猛进 ， 早 已 经 突破 了 多 核 的 概念 ， 在 一 个 处 理 器 核 中 
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设计 多 个 硬件 线程 的 技术 也 早已 成 熟 。 辟 如 硬件 超 线程 (Hyper-threading) 技术 ， 便 是 在 一 
个 处 理 器 核 中 实现 多 份 硬件 线程 ,每 套 线程 有 自己 独立 的 寄存 器 组 等 上 下 文 相关 的 资源 , 但 
是 大 多 数 的 运算 资源 被 所 有 硬件 线程 复 用 ， 因 此 面积 效率 很 高 。 在 这 样 的 硬件 超 线 程 处 理 器 
中 ， 一 个 核 内 的 多 个 线程 同样 存在 着 与 多 核 系 统 类 似 的 存储 器 模型 问题 。 

并 且 经 过 多 年 的 发 展 ， 除 了 本 附录 介绍 的 3 种 模型 之 外 ， 存储器 模型 的 种 类 已 经 发 展 出 
众多 不 同 的 模型 ， 本 书 限 于 篇 幅 ， 在 此 不 一 一 列举 ， 感 兴趣 的 读者 请 自行 查阅 。 


,区 前 存储 器 模型 应 用 实例 


在 多 核 软件 开发 中 经 常 有 需要 进行 同步 (Synchronization). 的 场景 ， 一 个 需要 进行 同步 
的 典型 双核 场景 如 下 为 : Core 0 要 写 入 一 片 数据 到 某 一 段 地 址 区 间 中 , 然后 通知 Core 1 将 此 
片 数 据 读 走 。 
为 了 完成 上 述 功能 ， 程 序 员 开发 了 一 个 多 核 应 用 程序 ， 预 期 如 下 。 
。 Core 0 和 Core 1 二 者 约定 了 一 个 共享 的 全 局 变量 作为 旗 语 。 程 序 的 全 局 变量 在 硬件 
上 的 本 质 是 在 存储 器 中 分 配 一 个 地 址 保存 该 变量 的 值 ，Core 0 和 Core 1 都 能 够 访问 
到 该 地 址 。 

。 Core 0 完成 了 写 数据 操作 之 后 ， 便 将 此 共享 变量 写 为 一 个 “特殊 的 数值 ”。 

e Core 1 则 不 断 地 在 监测 此 共享 变量 的 值 ， 一 旦 其 监测 到 了 “特殊 的 数值 >， 便 认为 可 
以 安全 地 将 数据 从 地 址 区 间 中 读 走 。 

Core 0 和 Core 1 的 程序 可 以 被 抽象 如 下 。 

e Core 0: 写 入 数据 一 设置 旗 语 。 

e Corel: 监测 旗 语 一 监测 到 旗 语 的 “特殊 的 数值 ”一 读 取 数 据 。 

从 上 述 描述 可 以 看 出 ， 为 了 能 够 准确 地 实现 交互 数据 的 功能 ，Core 0 的 “ 写 入 数据 ”和 
“设置 旗 语 ”指令 的 执行 顺序 一 定 不 能 发 生 改变 ; 同样 ，Core 1 的 “监测 旗 语 ”和 “ 读 取 数 
据 ” 指 令 的 执行 顺序 也 一 定 不 能 发 生 改变 。 

在 使 用 按 序 一 致 性 模型 的 多 核 系统 中 ， 执 行 顺序 一 定 能 够 得 到 保证 ， 因 此 程序 执行 的 结 
果 能 够 满足 程序 员 的 预期 。 

但 是 在 使 用 松散 一 致 性 模型 的 系统 中 ， 由 于 “数据 ”和 “ 旗 语 ”所 处 的 存储 器 地 址 不 一 
样 ， 理论 上 是 可 以 改变 其 执行 顺序 的 。 因 此 编译 器 或 者 处 理 器 人 硬件 本 身 可 能 会 进行 优化 ， 使 
得 程序 最 终 的 执行 结果 可 能 并 不 是 程序 员 期 望 的 那样 。 在 松散 一 致 性 模型 的 系统 中 ， 必 须要 
在 程序 中 插入 存储 器 屏障 (Memory FENCE) 指令 ， 抽 象 如 下 。 

。 Core0: 写 入 数据 一 插入 FENCE 指令 一 设置 旗 语 。 

。 Corel: 监测 旗 语 一 监测 到 旗 语 的 “特殊 的 数值 ”一 插入 FENCE 指令 一 读 取 数 据 。 
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由 于 FENCE 指令 能 够 将 其 前 后 的 存储 器 访问 指令 屏障 开 来 而 不 会 发 生 执行 顺序 的 改 
变 ， 因 此 能 够 保证 程序 执行 的 结果 满足 程序 员 的 预期 。 
但 是 经 过 进一步 深入 观察 可 以 发 现 如 下 规律 。 
。 如 果 有 一 条 指令 能 够 将 “插入 FENCE 指令 ”和 “设置 旗 语 ” 合 二 为 一 ， 那 么 理论 上 
只 需要 屏障 其 之 前 的 存储 器 访问 操作 即 可 无须 屏障 其 之 后 的 操作 )。 
e 同 理 ， 如 果 有 一 条 指令 能 够 将 “监测 旗 语 ”和 “插入 FENCE 指令 ” 合 二 为 一 ， 那 么 
理论 上 只 需要 屏障 其 之 后 的 存储 器 访问 操作 即 可 《而 无 须 屏 障 其 之 前 的 操作 )。 
e 假设 能 够 做 到 上 述 两 点 ， 由 于 只 需要 屏蔽 一 个 方 同 ， 可 以 进一步 提高 性 能 。 
因此 为 了 能 够 再 进一步 地 提高 性 能 ， 可 以 使 用 释放 一 致 性 模型 中 的 获取 -释放 的 机 制 ， 
软件 便 可 以 进一步 改写 如 下 。 
e Core0: 写 入 数据 一 释放 旗 语 。 
e Corel: 获取 旗 语 一 获取 旗 语 发 现 “ 特 殊 的 数字 ”一 读 取 数 据 。 
由 于 释放 操作 屏障 了 其 之 前 的 存储 器 访问 指令 , 获取 操作 屏障 了 其 之 后 的 存储 器 访问 指 
令 ， 因 此 同样 可 以 保证 程序 执行 的 结果 满足 程序 员 的 预期 。 
至 此 ， 上 述 问题 终于 得 到 了 完美 的 解决 ! 





D4 Bm 架构 的 存储 器 模型 


如 附录 D2.4 节 中 所 述 ， 存 储 器 模型 不 仅 适 用 于 多 核 场 景 ， 也 适用 于 多 线程 场景 。 在 描 
述 存 储 器 模型 时 ， 如 果 笼 统 地 使 用 “处 理 器 核 ” 的 概念 进行 描述 会 有 失 精 确 。 因 此 如 附录 
A9 中 所 述 ， 在 RISC-V 的 架构 文档 中 严谨 地 定义 了 一 个 Hart 的 概念 ， 表 示 一 个 硬件 线程 。 

RISC-V 架构 明确 规定 在 不 同 Hart 之 间 使 用 松散 一 致 性 模型 ， 并 相应 地 定义 了 存储 器 屏 
障 指令 (FENCE 和 FENCE.I)， 用 于 屏障 存储 器 访问 的 顺序 。 另 外 ，RISC-V 架构 定义 了 可 
选 的 〈 非 必需 的 ) 存储 器 原子 操作 指令 CA 扩展 指令 子 集 )， 可 进一步 支持 释放 一 致 性 模型 ， 
请 参见 附录 A14.5 节 了 解 更 多 相关 信息 。 








附录 将 结合 多 线程 “ 锁 ” 的 示例 对 存储 器 原子 操作 指令 的 应 用 背景 进行 简介 。 请 注意 ， 
由 于 “ 锁 ” 是 多 线程 编程 中 比较 星 涩 的 一 个 概念 ， 本 书 作为 一 本 通俗 读本 ， 重 在 力图 做 到 通 
俗 易 懂 ， 因 此 ， 对 于 “ 锁 ” 的 介绍 难免 有 失 之 学 术 精 准 之 处 ， 关 于 其 更 为 严谨 的 学 术 定义 读 
者 可 以 目 行 查阅 其 他 资料 进行 了 解 。 


什么 是 “上 锁 ” 问 题 





在 多 核 软 件 开发 中 经 常 有 需要 进行 “上 锁 ” 的 场景 ， 此 处 的 “ 锁 ” 是 指 软件 中 定义 的 功能 
命名 ， 多 核 软件 中 存在 着 多 种 不 同 的 锁 〈 辟 如 spin lock 和 mutex lock 等 )。 一 个 需要 进行 “上 
锁 ” 的 典型 三 核 场景 如 Core 0. Core 1 和 Core 2 共享 一 片 数 据 区 间 ， 但 是 一 个 时 间 只 有 一 个 核 
(Core) 能 够 独占 此 数据 区 间 ， 因 此 Core 0、Core 1 和 Core 2 需要 竞争 ， 竞 争 的 策略 如 下 。 
e Core 0、Core 1 和 Core 2 三 者 约定 了 一 个 共享 的 全 局 变量 作为 “ 锁 ”。 
程序 的 全 局 变量 在 硬件 上 的 本 质 是 在 存储 器 中 分 配 一 个 地 址 保存 该 变量 的 值 ，Core 0、 
Core 1 和 Core 2 都 能 够 访问 到 该 地 址 。 
锁 中 的 值 为 0 表示 当前 共享 数据 区 空 羡 ， 没 有 被 任何 一 个 核 独 占 。 
锁 中 的 值 为 1 表示 当前 共享 数据 区 被 某 个 核 独占 。 
e 当 某 个 核 每 次 独占 共享 数据 区 完成 了 相关 的 操作 后 ， 便 会 释放 数据 区 ， 通 过 向 锁 中 
写 入 数值 0 将 其 释放 。 

e。 没有 独占 数据 区 的 核 〈 璧 如 Core 0 独占 时 ，Core 1 和 Core 2) 都 会 不 断 地 读 锁 中 的 
值 ， 判 别 其 是 否 空闲 。 一 有 旦 发 现 锁 空 站， 便 会 问 锁 中 写 入 数值 1 进行 “上 锁 ”， 试 图 
将 共享 数据 区 进行 独占 。 

如 果 使 用 普通 的 读 (Load) ME (Store) 指令 分 别 对 存储 器 进行 读 和 写 操作 ， 那 么 第 一 
WE RMATA) 和 下 一 次 写 ( 写 入 数值 1 上 锁 ) 之 间 存 在 着 时 间 差 ， 并 且 是 两 次 分 立 的 
操作 ， 不 同 的 核发 出 的 读 写 操作 可 能 彼此 交织 在 一 起 ， 那 么 可 能 出 现下 述 这 种 情况 。 

e。 当 数 据 区 空闲 之 后 ， 两 个 核 (Core 1 和 Core 2 ) 均 读 到 了 锁 的 值 为 0， 于 是 认为 自己 

可 以 独占 数据 区 ， 并 同 锁 中 写 入 数值 1。 
e 按照 规则 ， 只 能 有 一 个 核能 够 独占 此 共享 区 ， 但 是 此 时 两 个 核 却 都 以 为 目 己 取得 了 
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共 至 区 的 独占 权 ， 从 而 造成 程序 的 运行 结果 变 得 不 正确 。 


E2 BE 


上 一 节 介 绍 了 多 核 ” 上 锁 " 时 面临 的 竞争 问题 。 为 了 解决 该 问题 , 如 果 能 够 引入 一 种 “ 原 
子 ” 操 作 ， 让 第 一 次 读 (发 现 锁 空间 ) 和 下 一 次 写 〈 写 入 数值 1) 操作 成 为 一 个 完整 的 整体 ， 
期 间 不 被 其 他 核 的 访问 所 打 断 ， 那 么 便 可 以 保证 一 次 只 能 有 一 个 核 上 锁 成 功 。 

为 了 支持 “原子 ”操作 , 以 ARM 指令 集 架 构 为 例 , ARM 架构 早期 引入 了 原子 交换 (SWP) 
指令 。 该 指令 同时 将 存储 器 中 的 值 读 出 至 结果 寄存 器 ， 并 将 另 一 个 源 操作 数 的 值 写 入 存储 器 
中 相同 的 地 址 , 实现 通用 寄存 器 中 的 值 和 存储 器 中 的 值 的 交换 。 并 且 , 在 第 一 次 读 操作 之 后 ， 
人 硬件 便 将 总 线 或 者 目标 存储 器 锁定 ， 直 到 第 二 次 写 操 作 完成 之 后 才 解 锁 ， 期 间 不 允许 其 他 的 
核 访问 ， 这 便 是 在 AHB 总 线 中 开始 引入 “Lock” 信 号 支持 总 线 锁定 功能 的 由 来 。 

有 了 SWP 指令 和 硬件 锁定 总 线 功能 的 支持 , 每 个 核 便 可 以 使 用 SWP 指令 进行 上 锁 , 步 
JE T. 

e 步骤 1: 使 用 SWP 指令 将 锁 中 的 值 读 出 ， 并 向 锁 中 写 入 数值 1。 该 过 程 为 一 个 整体 

性 的 原子 操作 ， 读 和 写 操 作 之 间 其 他 核 不 会 访问 到 锁 。 

。 步骤 2: 对 读 取 的 值 进行 判断 ， 如 果 发 现 锁 中 的 值 为 1， 则 意味 着 当前 锁 正 在 被 其 他 
的 核 占 用 ， 上 锁 失 败 ， 因 此 继续 回 到 步骤 1 重复 再 读 ; 如 果 发 现 锁 中 的 值 为 0， 则 
意味 着 当前 锁 已 经 空 几 ,同时 由 于 SWP 指令 也 以 原子 操作 的 方式 向 其 写 入 了 数值 1， 
则 上 锁 成 功 ， 可 以 进行 独占 。 

原子 指令 操作 除了 解决 上 锁 问题 之 外 , 还 可 以 解决 很 多 其 他 的 问题 ,本 书 在 此 不 做 一 一 装 述 。 





通过 互 斥 操作 解决 “上 锁 ” 问题 





上 一 节 介 绍 了 使 用 原子 操作 指令 解决 多 核 “ 上 锁 ” 时 面临 的 竞争 问题 ; 但 是 “原子 操作 ” 
指令 也 存在 着 弊 疹 。 它 会 将 总 线 锁定 住 ， 导 致 其 他 的 核 无 法 访问 总 线 ， 在 核 数 众多 且 频 繁 抢 
锁 的 场景 下 ， 会 造成 总 线 长 期 被 锁 的 情况 ， 严 重 影响 系统 的 运行 性 能 。 

因此 ARM 架构 之 后 又 引入 了 一 种 新 的 互 斥 (Exclusive) 类 型 的 存储 器 访问 指令 来 奉 代 
SWP 指令 ， 其 核心 要 义 可 以 简 述 如 下 。 

e 定义 一 种 互 斥 恋 CLoad-Exclusive) 指令 。 该 指令 与 普通 的 读 指 令 类 似 ， 回 存储 器 进 

行 一 次 次 读 操作 。 
e 定义 一 种 互 斥 写 〈Store-Exclusive) 指令 。 该 指令 与 普通 的 写 指令 类 似 ， 但 是 它 不 一 
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定 能 够 执行 成 功 。 该 指令 会 回 其 结果 寄存 器 写 回 操作 成 功 或 是 失败 的 标志 信息 ， 如 
果 执 行 失败 ， 意 味 着 没有 真正 写 入 存储 器 。 

。 在 系统 中 实现 一 个 监测 器 (Monitor)。 该 监测 器 能 够 保证 只 有 当 互 斥 读 CLoad-Exclusive) 
MEJ (Store-Exclusive) 指令 成 对 地 访问 相同 的 地 址 ， 且 其 间 了 中 没有 任何 其 他 的 
写 操作 〈 来 自 于 任何 一 个 线程 ) 访问 过 同样 的 地 址 ， 互 斥 写 〈Store-Exclusive) 指令 才 
会 执行 成 功 。 

为 了 实现 上 述 功能 ， 系 统 中 的 监测 器 的 硬件 实现 机 理 略 显 复杂 。 为 了 不 使 读者 陷入 理解 
复杂 问题 的 泥潭 ， 本 书 在 此 将 其 略 过 ， 不 加 详 述 ， 感 兴趣 的 读者 可 以 自行 查阅 其 他 资料 。 

e HJF% CLoad-Exclusive) 指令 执行 的 存储 器 读 操作 和 互 斥 写 CStore-Exclusive) 指 

令 执 行 的 存储 器 写 操作 之 间 并 不 会 将 总 线 锁 定 ， 因 此 并 不 会 造成 系统 性 能 的 下 降 。 
这 是 与 原子 操作 指令 的 最 大 不 同 。 

为 了 区 别 出 普通 的 读 (Load) / 写 (Store) 和 互 斥 读 (Load-Exclusive ) / 互 斥 写 
(Store-Exclusive) 指令 发 起 的 存储 器 访问 操作 ， 需 要 特殊 的 信号 加 以 指示 。 这 也 是 AXI 总 线 
中 引入 了 互 斥 属性 信号 的 缘由 。 

^ [| Ei CLoad-Exclusive) 指令 和 互 斥 写 〈Store-Exclusive) 指令 和 系统 监测 器 的 支 
持 ， 每 个 核 便 可 以 使 用 互 斥 读 CLoad-Exclusive) 指令 和 互 斥 写 〈Store-Exclusive) 指令 进行 
上 锁 ， 其 步骤 如 下 。 

e 步骤 1: 使 用 互 斥 读 〈Load-Exclusive) 指令 将 锁 中 的 值 读 出 。 

。 步骤 2: 对 读 取 的 值 进行 判断 ， 如 果 发 现 锁 中 的 值 为 1， 意味 着 当前 锁 正 在 被 其 他 的 

核 占 用 ， 继 续 回 到 步骤 1 重复 再 读 ， 如 果 发 现 锁 中 的 值 为 0， 意 味 着 当前 锁 已 经 空 
W, APE 3. 

。 步骤 3: 使 用 互 斥 写 〈Store-Exclusive) 指令 向 锁 中 写 入 数值 1， 试 图 对 其 进行 上 锁 ， 然 
后 对 该 指令 的 返回 结果 (成功 还 是 失败 的 标志 信息 ) 进行 判断 。 如 果 返 回 结果 表示 该 互 
F5 〈Store-Exclusive) 指令 执行 成 功 ， 意 味 着 上 锁 成 功 ， 否 则 意味 着 上 锁 失 败 。 

由 于 第 一 次 读 和 第 二 次 写 之 间 并 没有 将 总 线 锁 定 ， 因 此 其 他 的 核 也 可 能 访问 锁 。 并 且 其 
他 核 也 可 能 发 现 锁 中 的 值 为 0， 并 继而 向 锁 中 写 入 数值 1 试图 上 锁 ， 但 系统 中 的 监测 器 会 保 
证 只 有 先进 行 互 斥 写 〈Store-Exclusive) 的 核 才 能 成 功 ， 后 进行 互 斥 写 〈Store-Exclusive) 的 
核 会 失败 ， 从 而 保证 每 一 次 只 能 有 一 个 核 成 功 上 锁 。 





E4 LIESS EZXIZIZIEZ 





在 RISC-V 染 构 的 基本 指令 集 ( 必 选 的 ) 中 ， 并 没有 定义 原子 操作 指令 和 互 斥 指令 ， 但 是 在 
HB "A" 扩展 指令 子 集中 文 持 了 此 两 种 指令 ， 请 参见 附录 A14.5 节 了 解 其 具体 的 指令 信息 。 





附录 截取 目 RISC-V“ 指 令 集 文档 ”(riscv-spec-v2.2.pdf)， 以 便于 读者 快速 查阅 。 


—— REER aL cu 


RV32I Base Instruction Set 


T T; XXX 


[  « | OT | 
000 | d | m | 99 | M Gh 
LE L8 E E D 
[ Uii] 


| rd | OH | 
[md —| m | JU | —: | OH 
[mE | sp C H0 | n o | 
SEM MENFE mA 


UST, 
v0 DDO0( 


XOO000000000 0000 
00000000000 
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Environment Call and Broakpoint 


C ooo | NX | OX | UU | TIIUUIT ] ECALL 
[09000000000] ë | 0 


on 00000 Vt T0011 EBREAK 
Trap-Return Instructions 
[WO — | WII | O0 | WU | X | IIO URET 
ooo — | OO | UN | O00 | 900 | III | SRET 


Interrupt-Management Instructions 
00000 000 00000 | 1110011 WFI 








F2 LiYEHEEZZI 





RV32M Standard Extension 


MUL 
XX) MULH 
00000 MULHSU 
GUT [ P | i | OH | d | O00 | MULHU 





















SC.W 
AMOSWAP.W 
AMOADD.W 
AMOXOR.W 
AMOAND.W 
AMOOR.W 
AMOMIN.W 
AMOMAX.W 
AMOMINU.W 
AMOMAXU.W 


[ m | € | m | m |m| "M em 

[ mj | € | mb | m | m | "| i | FNMADD.S 
Wo | E —| t | m | - | IO | FADDS 

[ — WOO) — | m | rmi | m | d | I0W0H | FSUBS 
ID — | ml | | sm | — | i0UII | FMULS 






3 
z 
i 


FMAX.S 
FCVT.W.S 






DOG 
01000 


FCVT.S.WU 
FMV.W.X 
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— dawrotai. CU RN MM MU 


RV32D Standard Extension 


[ mi [ un [ a f wii | FLD 





FNMADD.D 
FADD.D 
FSUB.D 


ML ME |] —nL— | 0091 FCVT.D. WU 





RVC 指令 编码 


注意 : 在 RVC 指令 中 ， 有 着 不 同类 型 的 非法 编码 ， 如 下 表 中 最 右 侧 一 栏 标注 的 。 
。 RES: 表示 这 种 编码 被 预 留 作为 未 来 扩展 使 用 。 


。 NES: 表示 这 种 编码 被 预 留 作为 非 标 准 扩展 。 
。 HINT: 表示 这 种 编码 被 预 留 作为 微 架 构 的 指示 ,硬件 实现 可 以 选择 将 其 实现 为 NOP。 


15 14 139 12 11 10 *oB-T- B5 5 & "uu o 9 
08 —— — 0 TW ] fegal instruction 
[1000 | ml — | rd | 00 | CADDHSPN nes, wo 
-E EE x DESEE. epa adem 
[rm uimme | "d | 00 | C.LQ aviae 






Pooran 


一 ra 
[Tip wimm(53| | rs | aim: ez | 00 | C.SD ave) 
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15 14 13 12 11 109 8 7 6 858 4 3 1 1 O 


C.SLLI (HINT, ni-0; RV3& NSE, nzuimm[5]1) 












C.ADDIIGSP (RES, wzitum0) 
C.LUI (RES, nsimm0; HINT, rd=0) 


i 
于 机 ae | 


-mw e p P [mp :6/2:1]5| | 01 | C.BEQZ 
| 1H | — imm(8M3] | mi’ | imml76215 | 01 | C.BNEZ 
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rdinstret[h] rd 
rdcycle[h] rd 


rdtime[h] rd csrrs rd, time[h], xO 


csrr rd, csr 
CSrW CST, IS 
CSrS CSI, rS 
csrc CST, IS 
csrwi csr, imm 
csrsi csr, imm 
csrci csr, imm 
frcsr rd 

fscsr rd, rs 
fscsr rs 

frrm rd 

fsrm rd, rs 
fsrm rs 

fsrmi rd, imm 
fsrmi imm 
frflags rd 
fsflags rd, rs 
fsflags rs 
fsflagsi rd, imm 
fsflagsi imm 


csrrs rd, instret[h], x0 
csrrs rd, cycle[h], xO 


csrrs rd, csr, xO 
csrrw xO, csr, rs 
csrrs X0, csr, rs 
csrrc XO csr, rs 
csrrwi x0, csr, imm 
csrrsi x0, csr, imm 
csrrci x0, csr, imm 
csrrs rd, fcsr, xO 
csrrw rd, fcsr, rs 
csrrw x0, fcsr, rs 
csrrs rd, frm, xO 
csrrw rd, frm, rs 
csrrw xO, frm, rs 
csrrwi rd, frm, imm 
csrrwi x0, frm, imm 
csrrs rd, fflags, xO 
csrrw rd, fflags, rs 
csrrw x0, fflags, rs 
csrrwi rd, fflags, imm 
csrrwi xO, fflags, imm 


Read instructions-retired counter 
Read cycle counter 

Read real-time clock 

Read CSR 

Write CSR 

Set bits in CSR 

Clear bits in CSR 

Write CSR, immediate 

Set bits in CSR., immediate 

Clear bits in CSR, immediate 

Read FP control/status register 
Swap FP control/status register 
Write FP control/status register 
Read FP rounding mode 

Swap FP rounding mode 

Write FP rounding mode 

Swap FP rounding mode, immediate 
Write FP rounding mode, immediate 
Read FP exception flags 

Swap FP exception flags 

Write FP exception flags 

Swap FP exception flags, immediate 
Write FP exception flags, immediate 


auipc rd, symbol[31:12] 


la rd, symbol 
l(blhiwid) rd, symbol 


s(blhivid) rd, symbol 


fl{wld} rd, symbol, rt 


fs{wld} rd, symbol, rt 


addi rd, rd, symbol[11:0] 


auipc rd, symbol[31:12] 


l(bihiwid) rd, symbol[11:0] (rd) 


rt uipc rt, symbol[31:12] 


auipc rt, symbol[31:12] 


auipc rt, symbol[31:12] 


s(blhiwid) rd, symbol[í11:0] (rt) 


fi{wld} rd, symbol[11:0](rt) 


Load address 

Load global 

Store global 
Floating-point load global 


Floating-point store global 


fs(wld) rd, symbol[11:0] (rt) 


nop 
li rd, immediate 
mv rd, rs 

not rd, rs 

neg rd, rs 

negw rd, rs 
sext.w rd, rs 
seqZ rd, rs 
snez rd, rs 
sltz rd, rs 


addi x0, x0, O 
Myriad sequences 
addi rd, rs, O 
xori rd, rs, -1 
sub rd, xO, rs 
subw rd, x0, rs 
addiw rd, rs, 0 
sltiu rd, rs, 1 
sltu rd, xO, rs 
slt rd, rs, xO 


No operation 

Load immediate 
Copy register 
One's complement 
Two's complement 
Two’s complement word 
Sign extend word 
Set if — zero 

Set if # zero 

Set if < zero 

Set if > zero 


slt rd, x0, rs 


sgtz rd, rs 
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fmv.s rd, rs fsgnj.s rd, rs, rs Copy single-precision register 
fabs.s rd, rs fsgnjx.s rd, rs, rs Single-precision absolute value 
fneg.s rd, rs fsgnjn.s rd, rs, rs Single-precision negate 

fmv.d rd, rs fsgnj.d rd, rs, rs Copy double-precision register 
fabs.d rd, rs fsgnjx.d rd, rs, rs Double-precision absolute value 
fneg.d rd, rs fsgnjn.d rd, rs, rs Double-precision negate 

beqz rs, offset beq rs, x0, offset Branch if — zero 

bnez rs, offset bne rs, x0, offset Branch if # zero 

blez rs, offset bge x0, rs, offset Branch if < zero 

bgez rs, offset bge rs, xO, offset Branch if > zero 

bltz rs, offset blt rs, x0, offset Branch if < zero 

bgtz rs, offset blt xO, rs, offset Branch if > zero 

bgt rs, rt, offset blt rt, rs, offset Branch if > 

ble rs, rt, offset bge rt, rs, offset Branch if < 

bgtu rs, rt, offset bltu rt, rs, offset Branch if >, unsigned 

bleu rs, rt, offset bgeu rt, rs, offset Branch if €, unsigned 

j offset jal x0, offset Jump 

jal offset jal x1, offset Jump and link 

jr rs jalr x0, rs, 0 Jump register 

jalr rs jalr x1, rs, O Jump and link register 

ret jalr x0, xi, 0 Return from subroutine 


auipc x6, offset[31:12] 
jalr xi, x6, offset[11:0] 
auipc x6, offset[31:12] 
jalr x0, x6, offset[11:0] 
fence fence iorw, iorw Fence on all memory and 1/0 


call offset Call far-away subroutine 


tail offset Tail call far-away subroutine 


面 对 新 兴 指令 集 标 准 RISC-V， 很 多 人 还 在 观望 和 比较 。 本 书 作者 却 “ 行 胜 于 言 ”， 完 成 了 商业 
级 水 准 的 蜂鸟 处 理 器 。 本 书 是 你 不 得 不 读 的 RISC-V 入 门 书籍 和 实践 指南 | 
一 一 景 略 半导体 设计 总 监 ，RISC-V 爱好 者 和 推广 者 “” 郭 雄 飞 
这 本 书 介 绍 了 当今 CPU， 尤其 是 RISC-V 的 最 新 技术 和 成 果 ， 还 给 出 了 设计 实例 ( 蜂鸟 
E200) 。 内 容 上 高 屋 建 领 ， 文 采 飞 扬 ， 深 入 浅 出 ， 是 国内 不 可 多 得 的 理论 联系 实际 、 全 面 介 绍 CPU 
及 心 片 设计 的 好 书 ， 相 信 会 对 读者 有 所 神 益 | 
一 一 中 科 院 “百人 计划 ”海外 引进 杰出 人 才 ， 物 联网 芯片 设计 公司 创始 人 胡 国 荣 
这 是 国内 较 早 关于 RISC-V 的 著作 ， 作 者 结合 自己 多 年 的 处 理 器 设计 经 验 ， 以 全 新 的 视角 分 析 介 
绍 了 RISC-V 指令 集 和 架构 设计 要 点 ， 是 一 本 非常 有 价值 的 书 ! 作者 提供 的 开源 RISC-V 处 理 器 设计 
和 SoC 平 合 ， 无 论 对 于 国内 的 高 校 、 研 究 机 构 ， 还 是 相关 开发 的 公司 来 说 ， 都 是 难得 的 第 一 手 资料 。 
感谢 作者 为 新 一 代 处 理 器 的 推广 和 实践 所 做 出 的 贡献 ， 也 希望 本 书 读者 能 够 体会 到 RISC-V 处 理 器 设 
计 的 精髓 |! 
一 ausi pii inicial 将 剑 飞 
开源 在 软件 世界 普及 之 后 , 也 开始 进入 硬件 世界 。RISC-V 开源 精简 指令 集 经 过 了 几 年 的 积累 后 ， 
f£ 2017 FEA TREŠ, 获得 了 众多 知名 芯片 公司 和 操作 系统 的 支持 。 和 ARM 的 过 往 一 样 , 展望 未 来 ， 
RISC-V 将 会 成 为 心 片 市 场 上 一 股 不 可 忽视 的 力量 。 对 于 想 了 解 此 技术 的 开发 者 来 说 , 本 书 绝对 是 首选 。 
希望 大 家 不 要 错过 这 本 书 ， 错 过 一 个 时 代 。 
一 一 半导体 行业 观察 执行 主编 ” 李 寿 鹏 
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